カタパルトスープレックス

興味がない人は無理して読まなくていいんだぜ。

書評|AIとハサミは使いよう「あなたを支配し、社会を破壊する、AI・ビッグデータの罠」|"Weapons of Math Destruction" by Cathy O'Neil

f:id:kazuya_nakamura:20180819193651p:plain

 AIに関しては人間の役に立つと考える「肯定派」と人間をダメにする「否定派」があり、多くの人は態度を決めている「様子見派」なんじゃないかと思います。AIは所詮はツールなので使いようで、人に役立つこともできれば、人に危害を加えることもあります。包丁で料理を作ることもできますし、人を殺すこともできます。それと同じです。

キャシー・オニールの『あなたを支配し、社会を破壊する、AI・ビッグデータの罠』はAIの悪い部分にフォーカスを当てた本です。大量破壊兵器を"Weapons of Mass Destruction"と言いますが、キャシー・オニールはAIとビッグデータがいかにして数学的破壊兵器"Weapons of Math Destruction"となるかを説明しています。

 

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

 
あなたを支配し、社会を破壊する、AI・ビッグデータの罠

あなたを支配し、社会を破壊する、AI・ビッグデータの罠

 

 

数学的破壊兵器としてのAIとは

キャシー・オニールは大学で数学の研究をしていましたが、ヘッジファンドでクオンツに転身、データサイエンスの理論と実践の両方を経験しています。リーマンショックは金融の数学モデルの欠陥が原因の一つでした。キャシー・オニールはそれをきっかけに万能ツールとしてのAIやビッグデータに疑問を持つようになりました。俄か評論家とは違います。

実際に数学的破壊兵器としてのAIは世の中に溢れていて、たくさんの人がそのために職を失ったり、警察に尋問されたり、お金が借りれなかったりしています。お金も正しいことに使われなくなります。

キャシー・オニールは数学的破壊兵器の条件として三つあげています。

  1. アルゴリズムの不透明性:データソースやロジックが明確でない
  2. 独占性:競争がなく改善するインセンティブがない
  3. フィードバックループの欠如:結果を学んで学習しない

いい大学、頭のいい人

例えばU.S. Newsの大学ランキング。そもそも「いい大学」とは何でしょうか?学生によって求めるものは違うので、一概には言えません。AIやビッグデータは客観的に測定できるものを分析することは得意ですが、主観的で概念的なものを分析できません。そのような概念的なことを数値化する場合は代理変数を使います。

例えば「頭がいい」とは何でしょうか?これを数値化したものがIQですね。リアルな世界における頭のよさを測ることはできませんが、IQを代理変数として代用するわけです。じゃあ、大学入試にIQを使ったほうがいいですか?そんなことないですよね。

大学ランキングは「いい大学」の定義が曖昧で、データや代理変数だけを使っています。そのために、ロジックを明確に説明することができません。「いい大学」の定義が曖昧なので、フィードバックループもありません。改善しようがないのです。

それでも、大学としてはランキングをあげたい。そうするとデータの見栄えを良くしようとするし、予算もそのために使われます。例えば応募者が増えて試験の不合格者が増えるとランキングは上がります。ローズボウルのような大学フットボールでいい成績を収めると、有名になり入学希望者が増えます。入学希望者が増えると不合格者も増えますそうするとランキングが上がります。日本だと甲子園で優勝すると「いい高校ランキング」が上がるようなものです。でも、それって「いい大学」ですか?

不適切なデータ化は「いい大学」とは何かを考え、本質的な改善をする機会を奪います。

適切なAI活用例

もちろん、AIはツールなので有用な活用もできます。むしろ、みんな有用に活用したいですよね。キャシー・オニールは適切なデータの利用例として大リーグ(MLB)のデータやクレジットデータ(FICO)をあげています。オープンで、適切なフィードバックループがある。

しかし、クレジットデータを使った独自のスコアリングは数学的破壊兵器になる可能性が高いと警告しています。例えばクレジットスコアを他のデータと組み合わせてeScoreと称して販売するビジネスがありますが、これがきちんと検証されたモデルなのかは非常に不透明です。数学的モデルは現実とは違います。現実に数字を近づけるようにシンプル化したもので、必ずエラーがあります。エラーが許されるようなデータ活用例ならいいのですが、エラーが許されないようなユースケースは慎重になる必要があります。特にクレジットのような個人データの活用に関してはです。

中国では独自の信用経済が発展し、アリババやテンセントが独自の信用スコアを作りました。しかし、クレジットスコアに関してはアメリカのFICOや日本のCICのような独立組織のシンリエン(信联)を設立して、アリババやテンセントなど個別企業がクレジットスコアを管理しない方針を決めました

中国政府もきちんとその辺は理解しているわけです。一部の中国ウォッチャーは日本のCICのような中央集権モデルは古くて、中国のアリババのようなやり方がこれからのやり方だと喧伝してきましたが、なんでも新しければいいというものではないということです。

どんな人にオススメか

データサイエンスやビッグデータをビジネスに活用したい人にはオススメです。いい事例だけではなく、悪い事例も学ぶ必要があるからです。

AIやビッグデータは効率化を促進します。プロセスを排除してコスト削減できますし、客観的なデータに基づいた判断ができます。ただ効率的(efficient)なことと効果的(effective)なことは違います。「客観的なデータ」自体が間違っている可能性もあります。プロセスを削ってコストを削減できたけれど、あまり効果がなかったということもあります。最悪の場合は社会的に害を及ぼしていたということもあり得ます。それが数学的破壊兵器としてデータです。

効率化も大事ですが公正であり倫理的でなければいけません。

ここでは個別の事例はあまり紹介できませんが、この本には数学的破壊兵器としてデータ活用の悪い事例がたくさん紹介されています。