カタパルトスープレックス

興味がない人は無理して読まなくていいんだぜ。

書評|統計ではわからない「なぜ」の科学|"The Book of Why" by Judea Pearl【2018年夏休み読書週間】

f:id:kazuya_nakamura:20180730162503p:plain

ビジネスの現場ではデータを読み取って「なぜそうなるのか?」を考えたり、話し合ったりする場面は多くあります。知りたいのは「広告を出せば売上が伸びる」とか「この薬を飲めば風邪が治る」といった単純なことです。でも、これまでの統計学ではなかなかそこまで踏み込んだことは言えませんでした。

また、データを理解することは人工知能やそれを実現する機械学習にとっても重要です。データの相関関係だけでなく、「なぜ?」を理解する人工知能は実現するのでしょうか。相関関係だけでなく、因果関係がわかることで、人工知能にどのような影響があるのでしょうか?

今回紹介するジューディア・パールの"The Book of Why"は「なぜ?」の学問である因果推論(Causal Inference)を紹介する本です。

The Book of Why: The New Science of Cause and Effect

The Book of Why: The New Science of Cause and Effect

 

[:contents]

 

この本では伝統的な統計学と因果推論の歴史的な成り立ちと、どのように様々な課題を解決してきたのかを解説します。例えば因果推論の源流となる「パス解析」が伝統的な統計学から長い間無視されてきたことなど。

統計では「相関関係と因果関係は違う」と言われます。統計では「AとBは相関関係がある」とはいえますが、十分に「Aが原因でBが起った」とは言えません。もちろん、因果関係を説明しようとする試みはありました。重回帰分析とか回帰不連続デザインとか様々な手法が統計学の延長として生まれました。そして、これらはデータ解析ソフトを使えば簡単に計算できます。相関係数(AとBがどれくらい強い関連性があるか)くらいならExcelでも出せます。しかし、この本でジューディア・パールは重回帰分析は因果推論として不十分だと言っています。

日本で出版されている因果推論(Causal Inference)に関する書籍を読むと、因果推論は伝統的な統計学の延長線上にあるように説明されていることが多いです。「介入」や「反事実」など因果推論の用語も使っています。しかし、ジューディア・パールがこの本で紹介する因果推論は伝統的な統計学とは違うものです。日本で出版されている因果推論に関する書籍を読む時にこの点は注意したほうがいいと思います。

伝統的な統計学でできること、できないこと

例えばある種の都市伝説として有名なデータ分析の事例で「男性はオムツとビールを一緒に買う傾向にある」があります。しかし、「ビールを買う原因はオムツを買うこと」とは言えません。統計では「なぜビールを買う時にオムツも買うのか?」の質問には答えられません。

比較テストをして原因を特定する方法もあります。WebでやるA/Bテストなんて代表的な例ですよね。AとBの結果を比較して、Aのほうが良ければAを採用する。このようは比較テストは聖書の時代から行われていて、新しい手法ではありません。統計ではランダム化比較試験といいます。WebのA/Bテストならデータが取れるからいいのですが、多くの場合はデータが取れませんし、バイアスの可能性も排除できません。つまり、一般的に適用するには不十分な手法です。

喫煙が肺がんの原因と証明するのも伝統的な統計学では時間がかかりました。伝統的な統計学でのランダム化比較試験が因果推論の手法として有効ならば、喫煙と肺がんの因果関係はもっと早く認められていました。推計統計学を確立したロナルド・フィッシャー自身も喫煙と肺がんには因果関係はないと強固に主張してきました。フィッシャーの主張を要約すると以下になります。

「喫煙と肺がんに相関関係はあるが、喫煙は肺がんの原因とは言えない。なぜなら、肺がんになる原因となる遺伝子があり、その遺伝子を持つ人はタバコを吸う衝動が生まれる可能性がある」

因果推論が解決できること

ジューディア・パールの提唱する因果推論は、伝統的な統計学が解決できなかった多くのことを解決することができます。ジューディア・パールの提唱する因果推論を非常に簡単に要約するとモデル(因果ダイアグラム:Causal diagram)とデータで因果関係をよりよく理解できる手法です。伝統的な統計学はデータだけで因果関係を描くモデルがありませんでした。

この本では因果ダイアグラムを描くためのツールも紹介していて、それぞれどのような統計学的な課題を解決できるのかを説明しています。例えば「モンティ・ホール問題」という有名なパラドックスがあるのですが、これも因果ダイアグラムで説明ができます。この他にも「シンプソンのパラドックス」など因果ダイアグラムで解説しています。

また、統計的手法に関して「オーバーコントローリングの問題」や「交絡」の問題を因果ダイアグラムの手法(バックドア、フロントドア、Do演算子、Do計算法など)がどのように解決するのかも解説しています。

この他にも「反事実」の検証方法などが紹介されています。構造方程式モデリング(SEM)をどのようにノンパラメトリックに取り込むのかなど。この辺りは本の後半になるのですが、流石にボクもこの辺りになるとついていけなくなりました。前半も完全に理解できたかかなり怪しいものですが。

「なぜ?」が理解できる人工知能は生まれるか?

ジューディア・パールは人工知能においても第一人者で、機械学習の一種であるベイジアンの発展に大きく寄与してきました(機械学習の種類に関してはペドロ・ドミンゴスの"The Master Algorithm"参照)。

www.catapultsuplex.com

では、因果推論は人工知能にどのような影響を与えるのでしょうか?「答えはデータの中にある」と考える人は多いが、そうではないとジューディア・パールは言います。「なぜ?」に答えるにはデータだけでは足りない。答えは人間や仮説検証を繰り返す機械学習が生み出すモデルが必要になります。

ジューディア・パールによれば因果推論を人工知能に取り入れるメリットの一つにトランスポータビリティーがあります。例えば広告の効果をニューヨーク、ロスアンゼルス、ボストン、トロントで計測したとします。そのデータでアーカンソーでの広告効果を予想できるか?という問題です。ジューディア・パールによればアーカンソーのデータがなくとも因果推論を使うことで選択バイアスを排除して因果関係を分析することが可能になるそうです。

また、強いAI(人間の脳と同じ能力を持つ人工知能)は因果関係を理解できなければいけないそうです。現在、チューリング・テストで50%以上の確率で人間だと信じ込ませたプログラムはありません。

どのような人にオススメか

まず、ここまで読んで興味を持てた人にはオススメできます。特に人工知能やデータ分析に携わる人は読む価値があります。データを使ったマーケティングに携わる人も同様です。この書評では「因果推論とは?」という大きな幹の部分については触れていません。むしろ枝葉の部分だけです。この枝葉の部分の解説を読んで面白いと思った人は、是非この本の幹の部分を読んで見てください。

この本は文系の人でもわかるように咀嚼されていますが、それでも数式やダイアグラムが多く出てきます。数字やロジックにがキライな人にはオススメできません。ある程度、統計の知識があったほうが読みやすいと思います。読んで見たいけど統計がわからない!という場合は『マンガでわかる やさしい統計学』などで基本的な統計の知識を持ってから読む方がいいと思います。