コンピュータとヒトが共存して幸せに生きてゆくために
『データを耕す』第10回(最終回)

7月 13日 2017年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

在野のデータサイエンティスト。元ファイザーグローバルR&Dシニアディレクター。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。職業としては認知されていない40年前から、データサイエンスに従事する。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

「データを耕す」シリーズの最終回。番外編4回を加えて、計14回の寄稿を行った。「ニュース屋台村」の編集者には、毎回丁寧に草稿を読んで、早々に返信をいただいた。日本語の文章としての約束事をチェックして、読みやすい文章となるようにアドバイスをいただいた。ニュース屋台村としては風変わりなテーマではあったけれども、編集者という最良の読者を得て、とても勇気づけられた。自分自身でも、記事のお作法を勉強するために、日本科学技術ジャーナリスト会議の会員となった。小さな変化かもしれないけれども、確かに自分の中で何かが変わっていった。おかげさまで、予定通り最終回を迎えることができた。

◆「データを耕す」出発点

「データ」はコンピュータにとっての「自然」、と考えるのが「データを耕す」出発点だった。スピノザ(17世紀オランダの哲学者)の「神すなわち自然」(Deus sive Natura、神即自然、神もしくは自然とも訳される)に倣(なら)って、コンピュータにとって、AI(人工知能)技術が「神」のようにふるまうとき、「自然すなわちデータ」と考えると、データサイエンスも「自然」科学となる。データサイエンスは怪しい科学なので、普通は自然「科学」というイメージだろう。ビッグデータ時代のAI技術について、「データ」スピノザ主義の立場から懐疑的な記事を書いてきた。

「データ」という概念は、2進法を発明したライプニッツ(スピノザより14歳若いドイツの哲学者)が個体性の考察において熟考している。スピノザは個体よりも神が与えた属性を重視して、幾何学的な秩序により証明することを好んだので、「データ」という概念には到達していない。ライプニッツは微積分学においても、幾何学的なニュートンの理解を大きく乗り越えて、記号演算による代数的理解に到達している。ライプニッツが万能計算機の設計図を作っているので、「データ」はコンピュータと共に誕生した、といっても大きな間違いではないだろう。

AI技術がいかに優れていても、「データ」が無ければコンピュータは生きてゆけない。「データ」はヒトが収集するものだけではない。乱数のように、コンピュータ自身が作り出す「データ」もある。数学者のマーク・カッツが『Kac統計的独立性』(数学書房、2011年)において、確率論的な独立性の概念を、コイン投げの確率から、数論に見いだされる確率論的な性質へと大きく飛躍させている。完全な乱数をコイン投げで作る必要はなく、乱数は実数の2進法展開や素数の中にも潜んでいる。確率「変数」は、数学的には確率空間の上で定義された可測「関数」のことだというから、まさに目からウロコの話だ。

筆者は「データ」はデータベースによって定義されるという、データベース中心主義者として仕事をしている。試験の目的を明確にして、まずデータベースを作ることから仕事が始まる。しかし、ビッグデータの時代では、緩やかにしか構造が定義されていない、インターネットのような巨大なデータベースに多種多様のデータが集積されていく。データを集積することが巨大企業の目的となっている。筆者のような、古典的な意味での「データ」を必要とする場合、例えば特定の症例のある症状に興味がある場合、集積されたビッグデータから、データベースを作成することになる。古典的な意味での試験目的や仮説を伴う「データ」を、「データベース」と読み替えてもよいかもしれない。

「データ」についてライプニッツの時代までさかのぼり再考することで、AI技術がもたらす私たちの生活への影響について、懐疑的ではあるけれども肯定的な見方を模索してきた。コンピュータとヒトが共存して幸せに生きてゆくために、古典的な真偽・善悪、およびビジネスの勝敗・損得の問題ではない、未来の「データ」を耕す課題として、ニッチとエッジまたは愛と冒険の物語を見いだした。ニッチとエッジでは、哲学的な2元論にこだわるつもりはなく、むしろ進化論的な解釈を試みている。

最終回ではAI技術ではなく、「データ」にこだわって、「データを耕す」具体的なイメージをスケッチしてみたい。

◆データとは、何であって、何ではないのか

データは哲学の文脈では所与(Datum)として語られる。所与の概念は難しいけれども、「The given element. Or, whatever is presented as the content of consciousness.」という定義を読んだことがある(※参考1)。哲学辞典(Encyclopedia of philosophy, 2nd edition, 2006)には7種類の引用があり、上記の定義はその5番目”in critical realism”に近い内容と思われる。しかし、感覚与件(Sense datum)と呼ばれるこの種の議論は(※参考2)バートランド・ラッセルが持ち上げたけれども、ラッセル自身の自己批判的な「出来事」(event)への転向によって終わりを告げる(※参考3)。

コンピュータと共に生きる時代、哲学ではなく技術の文脈では、「データ」とは「データベース」に収納されたデータとして理解すると分かりやすい。「データベース」の定義としては、関係データベース(※参考4)が理論的にも実用的にも代表的だ。最近ではインターネットと相性の良いXMLデータベース(※参考5)など、様々なデータベース技術も実用化されている。

つまり古典的な文脈では、データは属性(データベース)が定義されたのちに、属性に与えられた値ということになる。科学的な実験データが代表的な例だろう。コンピュータが自動的にデータベースを作成する時代になると、古典的な理解ではついてゆけなくなる。臨床試験のデータベースでは、データの標準化を推進する目的で、データベースを作成するデータベース管理システムが実用化されている。患者さん個人のデータベースを自動的に作成する時代も近い。グーグルのインターネット検索結果(スニペット※参考6)を一種のデータベースとみなすと、WEBページを自動的に収集し、分析するロボット(クローラ※参考7)が、ヒトの検索を先回りして、宣伝を巧みに混ぜて表示するのは古典的な技術とは言い難い。古典的な文脈を離れるとき、それは「データ」がコンピュータにとっての「自然」となる時代だ。

コンピュータにとっての「自然」と、ヒトにとっての自然を混同しないようにしよう。しかし、前者のデータ量が後者を圧倒する時代になっている。古典的な統計家は「Garbage in, garbage out」という言い方をする。大量のデータがあっても、品質管理されていないガラクタのデータであれば、解析結果もガラクタになるという意味だ。しかし、ヒトにとっての自然は品質管理をされているとは思えない。ヒトは危機管理の対策を講じるのが精いっぱいだろう。コンピュータにとっての「自然」となった「データ」についても似た状況かもしれない。インターネットに集積される「データ」は品質管理できそうもないので、せめて特定の人たちに悪用されないように、危機管理するしかなさそうだ。「ポスト真実」(※参考8)の時代は、「データ」の危機管理の時代でもある。甚大な「データ」災害に巻き込まれないために。

「データ」は情報量で測ることができる工学的な「情報」ではない。「情報」が武器になるとすると、「データ」は軍隊になるようなものだ。巨大企業や国家が独占しようとしているのもうなずける。短絡的な反戦思想で、「データ」の民主化を求めてもあまりうまくいかないだろう。巨大企業や国家をもってしても、「コンピュータにとっての自然」を支配することはできない。AI技術はヒトの能力を超えて、超知能のようなものになるという物語もあるけれども、ヒトの自由意志を超知能でモデル化できるとは思えない。できるとすれば集団的な洗脳をすることぐらいで、AI技術が新興宗教の教祖様となることはありうる。さすがに巨大企業や国家も、このような物語を望まないだろうから、コンピュータにとっての「自然」を科学的に調査して、「データ」災害に備えよう。

◆地球規模のデータを整備する

「データ」犯罪や「データ」戦争、いくらでもヒトの問題を「データ」の世界に持ち込むことはできる。専守防衛となることは致し方ないが、一方で「データ」の平和利用を推進して、ヒトの世界の問題を解決してゆけば、「データ」の世界の安全地帯が広がるだろう。

インターネットのホームページはHTML言語により記述されているので、地球規模の文字型データベースと考えることができる。最近では画像も大量に含まれ、HTMLよりはデータ構造がしっかりしたXML言語でのデータ記述(EXCEL2007以降のEXCELも対応)も増加している。光は1秒間に地球を7周半するから、インターネットの情報は、明示的には位置情報を含んでいない。インターネット接続の機器番号であるIPアドレスから、接続した国を判定するサービスもあるようだが、サイバー攻撃が無くならないので、インターネットの位置情報が不十分であることは確かだ。
携帯電話の地図検索で多用される人工衛星によるGPS(グローバル・ポジショニング・システム=全地球測位システム)のデータも、インターネットに多量にアップロードされるようになったので、GPSの位置情報とあわせると、インターネットの「データ」に地球の緯度経度をマップすることはできるようになった。ところが地球規模でのメッシュ統計はいまだ整備されていない。丸い地球の表面を四角のメッシュに区分することが困難なことはよくわかる。メッシュ統計が各国の人口統計を目的として整備されてきたので、地球全体のメッシュについて、合意ができていない。その事情を日本のメッシュ統計の立場から分かりやすく説明しているホームページがあるのでぜひ一読していただきたい(※参考9、世界メッシュ研究所)。世界の人口は、いまだ政治的な国境で区分された人口でしかない。空間統計学がうまく使えないデータなのだ。感染症についても同じ状況だとすると、これは何とかしてもらいたい。

日本科学未来館(東京都江東区)で「ジオパレット」というソフトを見た。鳴川肇(なるかわ・はじめ)さん(慶応大学准教授)が中心になって作った新しい世界地図「オーサグラフ」はメルカトール図法の問題点を改善する画期的な地図で、新しいつながる世界を見ることができる(※参考10)。ジオパレットは国別の統計でしかないので、メッシュ統計にはなっていない。オーサグラフであれば地球規模のメッシュ統計に最適だと思うのだけれども、どうだろうか。もしくは、メッシュ統計に最適化されたオーサグラフを考えることもできるはずだ。

◆個人中心の健康データベースを人口の数だけ作る

体重計や活動量計などのデータがインターネットのクラウドサーバーに集積される。「ライフログ」といわれる技術で、アップル、グーグル、マイクロソフトが無料のサービスを提供している。体重計のWishingsを買収して、ノキアも参入した。もちろんNTTドコモなどの日本企業も国内では活躍している。近い将来、遺伝子データやMRI画像データなどの医療データも連携するだろう。個人のデータは個人のものだ。

一方で、医学研究では試験目的を明確にして臨床試験のデータベースを作成し、科学的な仮説を統計学的な方法で検証する。ライフログデータの有用性を、臨床試験で確認する研究が盛んに行われている。しかし実際に個人が病気になったとき、もしくは病気を予防しようとしたとき、個人の状況に特化した試験目的でデータベースを作成することはほとんどない。

加齢に伴い発症リスクが高まるガンや認知症について考えてみよう。ガンの手術が成功しても、再発・再燃のリスクがあるとき、高リスク集団と見なされる。認知症についても、軽度認知障害(MCI)の懸念があれば、高リスク集団となる。自分自身を含む高リスク集団において、自分にとっての発症リスクが関与していると思われる健康関連データを収集してデータベースを作成する。自分と似た状況の高リスク集団の患者さんを大規模なデータベースから100人程度選択する。その選択方法の詳細はAI技術の応用となる。

個の医療を推進するためには、個のデータベースが起爆剤となるだろう。患者さんそれぞれに対応した健康データベースを作る。データベースがあれば、治療がうまくいっているのかどうか、科学的に検証しうる。治療がうまくいっていないのか、データベースの構造が不十分なのかどちらかは分からないけれども、とにかく肯定的な結果が得られるまで繰り返す。検査結果はデータでしかない。そのデータを医師が経験にもとづいて判断する。逆なのだ。経験にもとづいてデータベースを作成し、治療によって仮説が肯定されるかどうか検証するのが科学的な方法というものだ。

実際の医療は科学的な実験ではない。多くの場合経済的な制約と、患者さんを含む社会の倫理的な判断により治療方法が選択される。患者さんが得られるのは結果だけということになる。良い結果なら問題は無いけれども、ガンや認知症ではよい結果はあまり期待できないから問題なのだ。データサイエンスは怪しい科学ではあるけれども、経済性はほとんど問題にならない。パソコンを一晩動かしてもタダみたいなものだ。医療現場で、各患者さんのために、それだけの計算量の計算をしてみたいものだ。倫理的な判断は「データ」を耕すことで、「データ」をどれだけ生かすことができるのか、1人の患者さんのデータが、100万人の患者さんの治療を最適化するために利用できる時代になることを願っている。

100億人の人口なら、100億個の健康データベースを作る。前者が本当の自然で、後者はコンピュータにとっての「自然」ということになる。もちろん各個人が健康以外のデータベースを作成することは自由だ。「健康に生きること」は全ての人にとって共通の課題だと思うし、個人のデータが多くの人に役立つ仕組みについて考えてみた。個人の健康状態を予測する健康モデルを作るのではなく、自分を含んで、自分の健康モデルの予測誤差が最小になる部分集団のデータベースを作ることを想定している。ビッグデータから大量のデータベースを作ること、「データを耕す」と、いつか大きな収穫が期待される。

◆新しい連載について

ライプニッツが遺(のこ)した主著『モナドロジー』について勉強を始めてから、7年が経過した。芸術家の友人への追悼文は「データを耕す」シリーズとして、一応完結した。「モナドのカタチ」という作品論にまとめるのにはもう少しの時間が必要になる。

少し肩の荷が下りたと思ったら、七夕の日にまた友人を失った。化学者の友人のために、新しい連載のテーマを工夫したい。

現代の医療は確かに進歩した。しかし、慢性的な疾患には、もっと気長に取り組むべきだと思う。リハビリテーション医療を、予防医学の枠組みで考えてみるというのが、新しい連載のイメージだった。テーマは認知症のつもりだったけれども、友人の遺したメッセージを受け取るために、ガンと肺疾患の問題も考えてみることにした。

気長に取り組むためには、経済的な問題もあるので、家族や仲間の支援が不可欠になる。そして「住まい」を見直してみたい。認知症の在宅介護を目的としたリフォームの功罪が議論されているけれども、「住まい」は建築物だけではない。高リスク集団としての予防医療を、生活の場としての「ニッチ」構築の観点から、リハビリテーション医療につなげてゆくという構想だ。「ニッチ」構築とは自分自身、家族、仲間が作る住環境のことで、少しずつ、状況に合わせて作ってゆく。仲間にはコンピュータも含まれる。コンピュータは仮想的な仲間なのだ。自分と似た環境の仲間である必要はない。家族のように、明らかに異なる役割を演じながら、自分自身の一部であると感じられるような仲間を仮想的に作ってみたい。

コンピュータを使うから仮想的というのでは短絡的すぎる。自分自身も含めて、身の回りの物を回転(スピン)するように再構築してゆく。季節の移り変わりのように、巡る時間に身を寄せながら、気長に予防医療に取り組んでゆく。予防医療とはいっても、出発点が完全に健康とは限らないので、より悪くなることを遅らせるという意味合いもある。数学的にはユークリッド幾何学を離れて、量子力学の幾何学とでもいうべき、スピノール場の数学を「仮想的」な空間に見立てる。『スピン幾何学 スピノール場の数学』(本間泰史著、森北出版、2016年)を気長に学習する試みでもある。『モナドロジー』とは時代と分野が違うけれども、とても手ごわい書物だ。

参考1:Datumの哲学的な定義(たぶん『World Philosophers and Their Works』という本からの引用だと思うけれども、インターネットには下記の引用があった)。
https://quizlet.com/197898102/philosophy-5-flash-cards/

参考2:Sense Datum
http://www.cscd.osaka-u.ac.jp/user/rosaldo/090901sense_data.html

参考3:バートランド・ラッセルの感覚与件論
https://www21.atwiki.jp/p_mind/pages/107.html

参考4:関係データベース
https://ja.wikipedia.org/wiki/%E9%96%A2%E4%BF%82%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9

参考5:XMLデータベース
https://ja.wikipedia.org/wiki/XML%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9

参考6:Googleスニペット
http://web-directors.net/modules/pico/index.php?content_id=24

参考7:クローラ
https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AD%E3%83%BC%E3%83%A9

参考8:ポスト真実
http://www.bbc.com/japanese/38009790

参考9:世界メッシュ研究所による世界メッシュ統計の解説
http://www.fttsus.jp/worldgrids/ja/documents/

参考10:新しい世界地図「オーサグラフ」。TEDの参照動画もぜひご覧になってください。
http://logmi.jp/78160

※『データを耕す』過去の関連記事は以下の通り
第9回 身近な遠い未来の話
http://www.newsyataimura.com/?p=6703

番外編4 『進化論の世界』を読んでみた
http://www.newsyataimura.com/?p=6674

第8回 信頼できないデータと共に生きる
http://www.newsyataimura.com/?p=6649

第7回 「仮想患者」と「仮想医師」
http://www.newsyataimura.com/?p=6626

番外編3 フランスの体重計を買った
http://www.newsyataimura.com/?p=6585

第6回 コーディングの魔術と「辞書の国」
http://www.newsyataimura.com/?p=6549

第5回 本当は怖いデータの森
http://www.newsyataimura.com/?p=6541

番外編2 日本科学未来館に行ってみた
http://www.newsyataimura.com/?p=6480

第4回 表現型としての個体差、哲学からデータサイエンスまで
http://www.newsyataimura.com/?p=6478

第3回 量子コンピュータはサイコロを振る
http://www.newsyataimura.com/?p=6410

番外編1 恵比寿映像祭の「ポピー:アフガン・ヘロインをたどって」
http://www.newsyataimura.com/?p=6379

第2回 FDAがAI画像診断システムを承認、遺伝子検査もAIにしたら
http://www.newsyataimura.com/?p=6355

第1回 自動運転車は何馬脳なのか
http://www.newsyataimura.com/?p=6319

コメント

コメントを残す


9 × 二 =