コーディングの魔術と「辞書の国」
『データを耕す』第6回

4月 27日 2017年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

在野のデータサイエンティスト。元ファイザーグローバルR&Dシニアディレクター。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。職業としては認知されていない40年前から、データサイエンスに従事する。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。

全てのデータは数字になる。製薬企業で働いていたときに、直属の上司である英国人の統計家から教えてもらった。新薬開発の仕事で分刻みのスケジュールをこなしていたときで、その真意はよく分からなかったけれども、日本人のデータも英語に翻訳して同じデータベースに入れれば、ほとんど同じに見えてくるという意味だと思った。

コンピュータが理解できる言葉(コード)は、つきつめると2進法の数字だけだ。データとして取り扱われる文字は、各国の言語に対応してコード化されている。単語も専門用語辞書などによりコード化されている。文章もチェックボックスなどでコード化されている。画像データのように文字を使わずに、直接2進法のデータとなる場合もある。アナログ画像とは異なり、色や濃淡、解像度なども数値化されて、画像データのフォーマット(書式)の一部となっている。データはコンピュータにとっての「自然」なのだから、コンピュータが生きてゆくためには、ヒトにとっての自然を数値化するコーディングが必要となる。コーディングの方法が統一されて「辞書の国」が出来上がった。ヒトが使う全ての言語の文字が文字コード化され、グーグル翻訳ではプログラムで自動的に地球規模での「辞書の国」が構築されている。

本稿第5回では、本当は怖い「データの森」を彷徨(さまよ)ってみた。魔法使いが操(あやつ)るコーディングの魔術についての物語は、森の外の「辞書の国」との「密約」へと展開してゆく。「密約」を行うのはヘンゼルを捕らえた魔法使いではなく、魔法使いがヘンゼルを売りつけるAI(人工知能)という山神様だ。「データの森」はコンピュータが支配しているけれども、AIは「辞書」作成を自動化して、ヒトにとっての自然をひそかに全てコーディングしようとしている。

◆データを耕すために、システム思考からプロセス志向へ

筆者の立場を明確にしておきたい。巨大な辞書を体系的に構築することや、コンピュータプログラムで自動的に構築することは「辞書の国」を支配する政治目的以外には成功しないだろうと考えている。「辞書の国」のようなシステム思考は政治に帰着する。一方で、人々の生活や言語活動は経済的な制約が大きく、予測不可能な変化が続く(または突然終末を迎える)カオスの世界だ。カオスの世界では生き延びることが最優先で、その場しのぎのプロセス志向が有効になる。その場しのぎの小さな辞書で十分だ。小さな辞書を作る小さなプロセスを明確にすることで、「データの森」のコーディングの魔術から逃れ、人々が生活する村で「データを耕す」。

たくさんの小さな辞書をリアルタイムで自動的につなぎ合わせるのはグーグルの先端技術だ。英語でうまくいけば、全世界の言語でも同じ方法で対処できる。問題なのは、なにをして「うまくいく」と評価するのかということだ。グーグルのビジネスにとって利益となり、米国社会で受け入れられるという意味だとしたら、問題の所在が明らかになる。グローバル化の光と影は様々な立場から熱く語られ、現代の政治を動かしている。筆者は小さな辞書も時々冒険して、異国の小さな辞書と出合い、新しい小さな辞書を作り出す経験が重要だと思う。この冒険はプロセスにならないので、ヒトの出会いという偶然に任せるしかない。システム思考が巨大で支配的であることを競うように恐竜化するとき、最後に抵抗するのはプロセス志向ではなく、偶然の出会いによる予測不能な進化をもたらすヒトの愛と冒険の物語なのだろう。

◆理解不能なAIが使う合意形成の魔術

データベースを作成する仕事では、コーディングは高度に専門的な仕事となる。医師が医療記録を作成するとき、高度に専門的な知識が必要であることは疑いない。しかし、医師はヒトの言葉を使うので、データベース作成を目的としたコーディングが上手とは限らない(病理学の専門医を例外として)。

国際疾病分類ICD(International Classification of Diseases)を使いこなすのは容易ではない。病理学者が議論を重ねて保守管理している。精神科領域では精神病理学が議論のための議論を繰り返していたので、DSM(Diagnostic and Statistical Manual of Mental Disorders)という統計処理を前提とした辞書が作られて、ICDに組み込まれた。ICD分類が医療報酬を計算する基盤となるため、精神科医も議論を中断し、コーディングの「魔術」に取り込まれていった。臨床試験ではICDを基盤としたMedDRA(ICH国際医薬用語集)という辞書が国際標準として保守管理されている。コーディングの専門家は、辞書を保守管理するプロセスに精通している。

AIで作成された辞書は、その保守管理プロセスを理解しているのはプログラムだけだ。書き出し部分の「密約」は、このAIプログラムのことを言っている。AIで作成された辞書に限らず、AIの実用化で問題となるのはAIプログラム自身の「説明責任」(Explainability)であることが指摘されている(※参考1)。

AIプログラムの動作原理を説明されても、特定の事例での動作をだれも理解できないし、ほとんど予測できない場合もある。コーディングの魔術によってAIが活躍しても、合意形成の魔術は別問題ということらしい。しかし、合意形成のプロセスが明確に定義されたとすると、それはコンピュータであっても実行可能になる。現実に多くの政治的な合意形成は、もともとプロセスが明確に定義されない魔術だから、AIが政治的に成功することで、合意形成の魔術が成立するのかもしれない。

AIを最も早く、ほぼ全国民が受け入れたのは日本だと思う。今は亡き世界第2位のコンピュータ会社、DECの研究者が当時最高速のコンピュータで「かな漢字変換」の研究を行っていたことを記憶している。東芝が日本初(すなわち世界初)のワープロJW-10を販売し始めたころ(1978年)の話だ。DECと東芝は、当時AIの最先端企業だった。ワープロがパソコンに凌駕(りょうが)され、パソコンの「かな漢字変換」は学習能力を備えるようになり、ついにAIの「ディープラーニング(深層学習)」も実装されている。ディープラーニングはグーグル子会社が開発した「アルファ碁」など囲碁AIで一躍有名になったが、AIがヒトのようにデータの特徴を分析し自ら学ぶ技術だ。コンピュータが学習して変換ミスを繰り返さないようになると、ヒトは漢字を書くことを忘れてしまうようになった。自動車の自動運転も、合意形成のプロセスは、「かな漢字変換」のようなものなのだろうか。個別の製品では経済性が優先され、技術を開発した企業は淘汰(とうた)されてゆく。

◆コーディングされた生活

コンビニでの売り上げは全てコーディングされている。防犯カメラの映像から、性別、年齢、動きの特徴などもコーディングされているのだろう。カード決済では個人まで特定される。インターネットにアクセスすれば、どのような商品やキーワードに興味があるのかなど、個人の嗜好(しこう)まで詳細にコーディングされる。スマートフォンでは活動量とGPS(全地球測位システム)の位置情報がコーディングされ、医療データを含めた個人の健康データがスマートフォンに集約されつつある。いわゆるビッグデータの時代では、個人の生活の全てがコーディングされている。データは自動的に記録され、自動的にコーディングされて、自動的にデータ解析される。

特定の目的のためにデータ解析されることはヒトにとって理解しやすいので、あらかじめデータ利用の条件が合意されている場合がほとんどだ。データが自動的に記録されることは利便性があるため、あまり抵抗感はないだろう。問題は自動的にコーディングされることで、個人の思想や宗教をコーディングされているとしたら、どう感じるだろうか。テロ対策という目的だけで正当化できるとは思えない。AIのディープラーニングではデータの特徴を自動的に探し出してコーディングする。何が過激思想の特徴なのかを、あらかじめ指定しておく必要はない。何人かのテロリストを同定できれば、AIが自動的に学習して、秘密のネットワークを探しながら、さらに学習する。テロリストの問題は、早期退職者の問題かもしれないし、いじめの問題かもしれない。個人の健康の問題かもしれない。コンピュータ技術を使って、社会や個人の問題を経済的に解決しようとすると、問題が顕在化する前から、自動的に記録されたデータを自動的にコーディングする、コーディングの魔術に取り込まれてゆく。コーディングされた生活の物語は、始まったばかりだ。

◆コーディングされた遺伝子

コーディングされた生活は違和感があるだろうか。遺伝子は実に巧みにコーディングされている。遺伝子は四つの塩基に対応した4文字のコードで表現されているけれども、単純な2進法ではない。4文字のコードが三つ並んでタンパク質を構成する20種類のアミノ酸とアミノ酸連鎖の終止を示す「コドン」となっている。遺伝子のコーディングにおいて、その複製をつくる経済性が素晴らしい。半導体では「ムーアの法則」(半導体集積回路のトランジスタ数は2年ごとに2倍になる)が有名で、指数関数的なコンピュータの性能向上をもたらしてきた。遺伝子解析技術はムーアの法則を上回る性能向上が実現されているが、そのもとになるのは、遺伝子を倍々に複製する指数関数的な仕組みにある。

個人の全ゲノムコード(DNAの塩基配列)を千ドルで解読(デコード)できる時代になっている。ゲノムコードにはタンパク質をコーディングした部分と、タンパク質の発現を調整する部分があり、特に後者については機能が十分に解明されていない。DNA(遺伝情報を格納している部分)のコードに従って、多種多様なRNA(遺伝情報の伝達やたんぱく質の合成などに働く)が作成されるけれども、RNA分子相互の複雑な相互作用は、まさに複雑系と言うにふさわしい「RNAワールド」をつくっている。DNAのコーディングの魔術は解明できたけれども、RNAの魔術は合意形成の魔術のように単純な政治的なものではない。

個人のゲノムコードは、様々な疾病に悩まされるリスクを推定することに有益であるという、米国政府の合意ができている。次のステップでは、それぞれの疾病の様々な予防法とか治療法が、各患者さんにとって有用であるかどうか(有効性と安全性のバランスとして)という問題にも有益であることが認められるようになるだろう。単純に、統計的にはデータが増えれば予測が正確になる。RNAワールドは理解できなくても、経済的および倫理的に有益であると認められると、政治的な合意形成の魔術にかかって、コーディングの魔術に取り込まれてゆく。

◆スモール・イズ・ビューティフル

コーディングの魔術が良くないというつもりはない。近代社会を支えてきた学校、病院、警察などの公的サービスにおいて、コンピュータ利用の善悪を哲学的に議論している時間や経時的なゆとりはない。貧困・感染症・テロなどの反社会的な圧力に対抗できず、自己責任という切り捨てが行われている現状を打開できるのは、AI技術でもある。

「システム思考からプロセス志向へ」という哲学的な処方箋(せん)が有効だとしたら、AIが恐竜化する前に、新たな活路が見いだされるはずだ。まず、AIと戦わず、AIのゲーム理論から脱却する。ネットワーク理論を数学的に整備して、AIツールとしてコンピュータに実装する。真偽や勝敗ではない、新しい発見的な価値観をコンピュータに導入する。

説明不可能な小さいブラックボックスを受け入れる。量子力学の世界では「シュレーディンガーの猫」(※参考2)という有名なパラドックスがあるけれども、観測できないブラックボックスを受け入れたら、パラドックスではなくなる。犯罪者が捕まらなければ、騙(だま)されたほうが悪くなる。不倫をしても、見つからなければ無かったと同じ。みんなブラックボックスを受け入れている。AIがブラックボックスになっても、日常生活はそう困らないだろう。ただし、AIで犯罪捜査をする場合、コーディングの魔術には要注意だ。大きなブラックボックスは危険なので、せめて不幸な猫一匹が入る程度の、できればアリ一匹程度の小さなブラックボックスとしよう。

コンピュータはムーアの法則で高性能化するとともに小型化した。現在のスマートフォンは開発当初のミニコン以上の能力がある。その時代、大型計算機は給与の計算に使っていたので、センサーを付けた実験データの取り込みにはミニコンが使われていた。2016年の世界スマートフォン販売台数は13億6千万台だそうだ(※参考3)。小さいことは良いことだ。この圧倒的なスマートフォンの販売台数に支えられて、ビッグデータの時代がやってきた。そのうちに年間10億人のゲノムが解読される時代がやってくるのだろうか。おそらく10年以内にはそうなるかもしれない。しかし、今からでも始められることがたくさんある。

医療データの場合、ビッグデータは個体差に関する良質なデータで十分だ。もちろん遺伝子データは重要だが、表現型の個体差に関する「良質」なデータの研究はこれからの課題になる。表現型の個体差の問題は、本稿第4回で考えてみた。この記事では詳細を記載しなかったけれども、表現型の個体差は集団の中で予測可能性という意味で相対的に評価するとわかりやすくなる。特定の患者さんを含む良質なデータから、シミュレーションで患者さんの様々な状況に対応したビッグデータを生成すれば十分に目的が達成される。全人類の健康問題を一度に解決する必要はない。

筆者は専門ではないけれども、環境問題も特定の地域に限定してシミュレーションすれば、様々な解決法が見えてくるだろう。環境問題が、地球全体の問題であることは分かっていても、あえてブラックボックスを許容して、特定の地域での問題解決に注力する。地域での正確な予測モデルを作り、対策の有効性を検証可能にする。本章の見出しは、「スモール・イズ・ビューティフル」。その世界的ベストセラーの著者であるイギリスの経済学者F・エルンスト・シューマッハーに啓発されたものだ。「データを耕す」には、最先端のデータサイエンスを必要とせず、安価な中間技術の開発を行えばよい。ただし、考え方の根底は大きく変えなければならない。

※参考1:The Dark Secret at the Heart of AI
https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/#disqus_thread

※参考2:『アインシュタインの反乱と量子コンピュータ』
(佐藤文隆、京都大学学術出版会、2009年)
※参考3:世界のスマートフォン販売台数2016年
http://techon.nikkeibp.co.jp/atcl/column/15/011300091/020100026/?rt=nocnt

※『データを耕す』過去の関連記事は以下の通り
第5回 本当は怖い「データの森」
http://www.newsyataimura.com/?p=6541#more-6541

第4回 表現型としての個体差、哲学からデータサイエンスまで
http://www.newsyataimura.com/?p=6478#more-6478

第3回 量子コンピュータはサイコロを振る
http://www.newsyataimura.com/?p=6410#more-6410

第2回 FDAがAI画像診断システムを承認、遺伝子検査もAIにしたら
http://www.newsyataimura.com/?p=6355#more-6355

第1回 自動運転車は何馬脳なのか
http://www.newsyataimura.com/?p=6319#more-6319

コメント

コメントを残す