п»ї データ論の準備(3)全体構想 『住まいのデータを回す』第20回 | ニュース屋台村

データ論の準備(3)全体構想
『住まいのデータを回す』第20回

6月 26日 2019年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

株式会社エルデータサイエンス代表取締役。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

筆者のライフワークとなるかもしれない「データ論」にむけて、(1)目的、(2)方法、そして今回の(3)全体構想と準備を進めてきた。次回は(4)問題設定となる予定だ。「データ論の準備」は、本シリーズ「住まいのデータを回す」のまとめでもある。長々と20回もまとまりのない文書を書いてきたけれども、もし「データ論」が書かれることがあるとすれば、それは筆者のライフワーク「薬物作用の個体差」からの決別でもある。「データ論」が書かれる舞台は「文学部数学科」になるだろう。そんな気楽な「屋台村的」な夢物語を「住まいのデータを回す」第22回で最終回にできることを楽しみにしている。

データ論の目的を、機械文明の限界を乗り越えて、データ文明が開花するための技術思想を模索しながら、現状では解決の見込みのない問題群に「データ」技術によってアプローチすること、と要約してみた。その近未来の技術思想を「データサイクル」と命名している。データ論の方法は、「データサイクル」という技術思想を、明確に理解できるようになるための方法だ。自分自身が理解できていないことは仕方がないとして、人類未踏の問題にパソコンだけで挑もうとしている。数学の自由に勇気づけられながら、ランダムなウイルスのありかたを解析するための方法でもある。ウイルスはデータとして生きている。ウイルスとの「共存・共生・共進化」は、データとの「共存・共生・共進化」でもある。

生きものにとっての個体差は、個体差の表現であって、自分自身の生活の場を表現している。生活がデータ化されるとき、ウイルスの生活環のような、とめどもない多様性を、生活のデータから、どのようにして発見することが出来るのだろうか。このような問題設定にみちびかれる全体構想についてまとめてみたい。

◆生活の場もしくは自分の居場所

「データ論」の主役は「ランダムなひとびと」だ。資本論の主役が、資本家ではなく、労働者であったように、主役が変わると同じシナリオでも全く異なる物語となる。なぜもっと簡単に生活者といえないのだろうか。生活がデータ化されることで、人類社会は大きく変質するだろう。データとして生きるウイルスからの連想で、「ランダムなひとびと」は常在性ウイルスとして生きる生活者といえるかもしれない。経済学からの連想では、生産者剰余がIT革命によってゼロに近づくときに、消費者剰余(参考※1)は消費者が生活者として生き続ける限り増大してゆく。

「ランダムなひとびと」の物語は、認知症を生きる人類の物語でもある。認知症患者と共に生きるという意味と、認知症を理解すらできずに、思考停止に陥っている人類という二重の意味を持っている。この物語は、個人、家族、社会、国家といった集合論的な意味での生命の単位では生命を理解できないことから始まる。ウイルスの生活環を想像してみよう。個体としてのウイルスが細胞に感染して、ウイルス製造装置を構築し、ウイルス粒子を細胞外に大量に放出する。放出されたウイルス粒子は生きていないかもしれない。しかし、偶然に別の個体の細胞に感染して生き始める。100万分の1の確率で生き延びるとしても、100万倍に増幅されれば立派に1個の個体の生活環となる。

消費者には消費の場があり、生活者には生活の場がある。ネット社会になって、その両者の区別はなくなり、生活がデータ化されるときには、個人や家族の単位としての生活の場の定義すら曖昧(あいまい)になる。しかし、本当に生活の場の定義が曖昧になるのは認知症の場合だ。生活の中の動線が閉じなくなってしまう。徘徊(はいかい)だけではなく、物を片づけたり、料理を作ったりすることがうまくできなくなる。生活の場における閉じた回路を発見すること、その閉回路の中に自分という特異点がある。

◆閉回路としての連想記憶

近代数学はピタゴラスの時代からの数学を集合論によって基礎づけた。集合論では開集合が実数の連続性を理解する基本概念となっている。筆者は確率論と集合論の相性はあまりよくないと考えている。全ての起こりうる事象の集合からボレル集合族への写像を確率変数として定義することで、ランダムネスに関する哲学的な議論を避けて、確率現象を測度論できれいに数学的に記述できるようになった(参考※2、長いけれど面白い解説)。しかし、ボレル集合族は全宇宙の全粒子の全ての組み合わせからなる集合よりもはるかに巨大で、数学的にしか想像できない。近代数学では実数が主役であって、乱数は疑似的な数、サイコロ遊びとしてしか役割が無かった。しかし、量子論の世界では確率現象が物理現象の主役となり、熱力学においても、素数の分布においても確率現象が深い数学的理解に不可欠であることが明らかになった。さらに、データの世界では、実数が近似であって、全てのデータは誤差を含む確率現象とみなされる。

別に集合論に問題があるというつもりはなく、生活がデータ化されたとき、そのデータを解析するためには、開集合の系列とはならない、もっと自由な発想が必要なのではないかといいたいだけで、それを閉回路といっている。プログラム論では再帰的関数と呼ばれるものに近いかもしれない。ネットワークグラフのような離散的な構造を考えれば、閉回路は簡単に発見できる。しかし、その時間変化としてのダイナミズムや、時間変化と空間変化の関係(※参考3、エルゴード理論参照)まで考えて、ニュートン力学の微積分とは異質の離散的な数学や、非定常で離散的な熱力学までたどり着くかどうか。おそらく集合論の束縛の中では無理だろうと考えている。

連想記憶の閉回路が、実際にfMRIのような脳機能画像で実証されれば素晴らしいけれども、少なくとも、認知症の治療のために、認知症の進行程度を連想記憶がどの程度閉じているか、定量的なテストにできるだけでも十分だろう。記憶が閉じるというのは、多次元空間の場合、時間軸にらせん状に巻きつく記憶もその仲間に入れなければならない。この場合も、離散的なネットワークグラフであれば何とかなりそうだ。離散的ネットワーク構造の中に、どの程度の数の閉回路が含まれるのかという問題になると、結び目理論(※参考4)のように高度な高次元トポロジーが必要になるかもしれない。筆者は可能な閉回路数の推定値が多様性の尺度になり、閉回路間の距離や位相的関係が独立性の尺度になるのではないかと勝手に想像している。

話が飛躍してしまうけれども、空間統計でよく使われるメッシュ統計において、閉回路をメッシュの線上の関数と考えると、微積分学の基本公式のように、メッシュ内の統計量とメッシュ線上の統計量の関係を考えることが出来る。メッシュ線上の統計量を、画像のエッジ抽出の方法で適当に与えることが出来れば、微積分学に相当する閉回路の微積分が構成できるかもしれない。メッシュ統計で近似すれば、国境などの本当の境界線上の統計量も算出できるようになるので、軍事的な目的、もしくは経済分析などで有用と思われる。

◆分子認識の離散的理解

「データ論」の全体構想としては、人工知能(AI)技術の近未来についても考えてみる必要がある。ビッグデータの時代になると、データを解析するのはデータサイエンティストではなく、AIプログラムになり、解析結果を評価するのもAIプログラムになるかもしれない。そうしないと、データの増加量や素早い変化について行けなくなるからだ。すでに、環境ウイルスデータの解析ではプログラマーが律速段階になっている。現在のAIプログラムは、ディープラーニングを代表として、画像処理、すなわち視覚のAIで多くの実績を上げている。音声、聴覚のAIも急速に発展している。次のAIの課題は、手で物をつかむことだそうだ。この場合も、視覚に頼って、補助的に触覚で力加減を調整している程度でしかない。触覚、味覚、嗅覚(きゅうかく)は近接感覚であって、視覚・聴覚よりも原初的な感覚、胎児・乳幼児の感覚でもある。これらの近接感覚は、分子どうしの近接感覚、分子認識にもとづいている。

ウイルスと薬剤は、分子認識されるほうの分子としての共通性がある。この分子認識の問題をAI技術はどのように取り扱うのだろうか。そこでは教師有り学習を基本とするディープラーニングはあまり役立たないだろう。本能的な学習のような、教師無し学習の世界を探求する方法が求められる。現在の教師無し学習は、エネルギーの最適化問題を代表とする、物理的なモデルが想定されることが多い。ウイルスや薬剤のような、もしくは社会・経済の問題のような、個体の存在を前提とする離散的なモデルはあまり探求されていない。受容体タンパク質による薬剤の分子認識は、水素結合などのエネルギー最適化の問題として物理的に取り扱われている。どこにも本能や進化などの生物学的なモデルが入り込むすきがないかのようだけれども、実際にはタンパク質の進化はアミノ酸分子の置換・欠落・追加という離散的なものだし、100万種類の薬剤分子がスクリーニングされたとしても、離散的な数値としては32ビットで十分に取り扱える程度でしかない。組み合わせ論の問題だと思えば、64ビットの世界でなんとかなりそうだ。ウイルスの気持ちになって、タンパク質が何を表現しているのかということを考えると、水の中の水分子の場所を表現しているのだと思う。生命の居場所は、分子レベルで考えると、水分子の居場所として離散化されているのだろう。ちなみに、水の構造を水分子から考えることは容易ではなく、局所的な水分子どうしの水素結合がダイナミックに変化する謎の世界でもある(※参考5)。

ダイナミックに変化する離散的ネットワークの構造をどのように数学的にとらえるのか、そこではどのようなランダムネスが働いているのだろうか。数学の世界で表現論というと、行列で表現することがすぐに思い浮かぶ。行列をより一般化するとTensorの構造が見えてきて、最終的にはSpinorスピノールの構造に行き着く。行列を別の見方をすると、2次元平面や3次元空間での回転の表現としての役割が見えてくる。この見方はすでにAI技術に取り込まれていて、TensorFlowのようなプログラムが活躍している。しかしAI技術でランダム行列が応用された事例は多くはないと思われる。近接感覚は、水分子の動的ネットワークをモデル化するランダム行列の理論が裏に潜んでいるのかもしれない。

◆常在性ウイルスと生活

ヒトにおける常在性ウイルスは、皮膚表面や腸管内の常在性細菌のバクテリオファージとして発見されてきた。しかしもっと多様な常在性ウイルスがDNAゲノムの中に大量に潜んでいる。ヒトゲノムの半分はウイルス由来かウイルスそのものという試算がされていることを複数の本で読んだ記憶がある。ウイルスは都合が悪くなると、宿主のゲノムの中に姿を隠して、宿主の増殖と共に存在し続け、都合がよくなると宿主細胞内で大量に増殖する戦略を持っているらしい。ウイルスこそ『利己的な遺伝子』(リチャード・ドーキンス、紀伊國屋書店、増補新装版2006年)と言いたいところだけれども、ウイルスは宿主を根絶することはないし、宿主の進化を助けて、宿主が多様な環境で生存できるようにすることで、ウイルス自身の多様性を増大させている。ウイルスは共存・共生・共進化のお手本のような存在でもある。

「ランダムなひとびと」は常在性ウイルスとして生きる生活者かもしれないという意味は、「ランダムなひとびと」は生活がデータ化された社会で、データと共存・共生・共進化する生活者であることを主張している。資本主義社会で大成功した大富豪であっても、自分自身の生活を健全に保つためには、ロボットだけでは不十分で、ランダムな人びとを必要としている。生活が健全であるということは、健康的であるとか倫理的な価値判断としてではなく、単に生活者として生きて、自分自身がロボットや冷凍保存人間にはならないという意味に過ぎない。自分自身がロボットや冷凍保存人間になったとしたら、信頼できるロボットに保守管理を依存するしか方法はないけれども、ロボットなどの機械は必ず壊れてしまう。進化論的に環境変化に対応できなければ、ロボットのエネルギーも自給できる見通しはない。生活して生きるしか方法はない。

仮に『ホモ・デウス』(ユヴァル・ノア・ハラリ、河出書房新社、2018年)のように、現在の資本主義社会の勝ち組から超人類が出現すると考えても、超人類はそれなりに進化して多様性を獲得し、人類も根絶されることはなく生き残るだけのことだろう。私たちの想像力の限界は「種の起源」であって、ウイルスのように種の概念にとらわれることなく、進化し続ける生命体、場合によっては個体概念にすらとらわれない、生きている場合も生きているとは思えない場合も同時に表現する生命体にはとうていかなわない。かなわないとしても、とにかく常在性ウイルスはどのようなものであって、どのように活動しているのかということを知ること、AI技術を駆使してでも常在性ウイルスを理解することから始めるしかない。資本主義社会の理解は、その後でも十分に間に合うだろう。

◆認知症治療薬について気長に考える

認知症治療について考えるのは認知症患者自身であるという、とんでもない議論から出発したい。製薬企業が経済的利益のために認知症治療薬の開発に挑み失敗した歴史への反省から、認知症患者の患者団体自身が認知症治療薬の開発に直接投資する時代となった。欧米の政府では、慈善団体の寄付を得た研究プロジェクトには、政府が同額以上の援助を行うという基本的な枠組みがある。税金の使途を決定するのは納税者自身であり、特に医療分野においては、患者の決定権が最重要視されている。しかし当然のことながら、認知症患者自身が研究プロジェクトを発案し決定することはあり得ないので、代理人としての専門家が実務を遂行している。専門家ではない政府の役人や政治家の決定よりは合理的であろう。

筆者のラフワーク「薬物作用の個体差」の原点でもある、薬物の慢性的作用(長期間の薬効)には大きな個体差があることは確かなのだけれども、現在の慢性的疾患の治療薬の多くは、急性的な薬理作用の理解をもとに開発されているので、すぐに治ることが期待され、気長に治すことは想定されていない。東洋医学では当然の気長な治療が、西洋医学では外科主体の短気な医療の世界では正当に評価されていない。慢性的疾患は、長い時間をかけて病気になったのだから、長い時間をかけて治療するしかないという、論理的に当然な推論が無視されている。都合が悪くなると宿主のゲノムの中に隠れて、宿主の一部として存在し続けるという、ウイルスのとんでもなく柔軟で気長な生活戦略を学んで、慢性疾患の治療戦略も気長で生活環境に適応したものとなれば、新しい可能性が見えてくるだろう。

問題は、気長に治療するためのインセンティブ、一喜一憂しながら病態の推移を定量的に評価する方法を見いだすことだと思われる。常在性ウイルスの変動は慢性疾患の病態推移と関連している可能性が高い。少なくともウイルスは、医師が知っているよりも多くの生体の状態を知っている。常在性ウイルスを分析して、彼らが知りえた身体の状態の変化をとらえること、ウイルスと共に一喜一憂して生きること、データとして生きるウイルスと共存・共生・共進化する戦略について考えている。

◆まとめにかえて

データ論の全体構想について考えてきた。「ランダムなひとびと」が主人公となり、データとして生きるウイルスの情報を分析しながら、認知症などの加齢に伴い発症リスクが高まる疾患の治療法、特にその治療薬について、患者を中心として、気長に治療する戦略について考えてきた。環境ウイルスのデータを解析するのは教師無し学習をするAIプログラムとなる。

データ論の全体構想の下絵、たたき台はどのような書物なのだろうか。それはマルクスの資本論ではない。この物語の出発点であり到達点はスピノザの『エチカ』(中公クラシックスW48)と初めから決めていた。そしてAI革命を含む近未来図として、ハラリの『ホモ・デウス』をエチカに掛け算(直積)して高次元化した後に、エチカのような1.5次元的な構造に戻すことで、「データエチカ」とすることが「データ論」の全体構想である。

データ論の構想を実現するためには、数学的な新天地を開拓する必要があるだろう。高度な抽象数学である必要はなく、構造化されたテキストの直積を作るような、新種のデータサイエンスの手法となるだろう。次回は、データ論の準備の総まとめとして、そのような数学的な新天地もしくは未踏領域に踏み込んだデータ論の問題設定について考えてみたい。道に迷っても出発点に戻ってくる工夫、帰巣本能についても言及したい。

参考1:消費者剰余
https://ja.wikipedia.org/wiki/消費者剰余

参考2:速度論的確率論の解説
https://qiita.com/sasakinzm/items/429a9fc629aa04880a02

参考3:エルゴード理論の数学的解説
http://math.tsukuba.ac.jp/~akiyama/papers/proc/Ergode.pdf

参考4:結び目理論の解説
http://www.sci.osaka-cu.ac.jp/~kawauchi/InternetLecture/01.html

参考5:水の構造を大型放射光施設Sprint-8で調べるという話
http://www.spring8.or.jp/ja/news_publications/research_highlights/no_54/

コメント

コメントを残す