п»ї データ論の準備(1)目的 『住まいのデータを回す』第18回 | ニュース屋台村

データ論の準備(1)目的
『住まいのデータを回す』第18回

3月 26日 2019年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

株式会社エルデータサイエンス代表取締役。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

『住まいのデータを回す』シリーズも最終段階となった。前回の『データを耕す』シリーズから、ずいぶん遠くに来てしまったと思う。17世紀の哲学者、スピノザとライプニッツに刺激されて、彼らの文章の隙間に、書かれなかった未来の哲学を読み取ろうとした。それは決定論の世界には収まりきらない、個体差をともなう「所与すなわちデータ」の世界だ。

筆者は「薬物作用の個体差」をライフワークとしている。実際に自分で動物実験を行い、臨床試験のデータ解析をしていると、「薬物作用の個体差」は遺伝子に関係があるとしても、遺伝子そのものというよりは、遺伝的要因と環境因子との交絡(非線形な関係)が重要だと思われた。医学薬学関連のデータ解析を職業としてきたけれども、大学では植物と根粒菌の共生に興味を持っていた。当時は生物統計学も数理生物学も大学の教程はない時代で、数学の応用課題としての「共生」に興味を持っていた。大学のFORTRANプログラミングの演習で、「ロトカ・ヴォルテラの方程式」(※参考1)を題材にしたとき、カオスの概念は全く知られていなかったけれども、「共生」の方程式があるとすれば、それはニュートン力学の決定論的世界とは全く異なるものになるという予感はあった。「データ論」をいつか書き始めたいと思っていた。現在のように、データ経済やデータ社会が新聞で話題となるはるか前から、「データ」を身近に感じていた。経済学や社会学、医学においても「データ」を使って仕事をするけれども、「データ」は道具でしかなく、おそらく「データ」を理解できていないか、「データ」が嫌いなのではないかと思われた。

最近読んだ経済学の本で、『父が娘に語る-美しく、深く、壮大で、とんでもなくわかりやすい、経済の話』(ヤニス・バルファキス著、ダイヤモンド社、2019年)は素晴らしい本だと思うけれども、ウイルスについては全く間違っている。「民主主義は不完全で腐敗しやすいが、それでも、人類全体が愚かなウイルスのように行動しないための、ただひとつの方策であることに変わりない」のではなく、ウイルスがいかに行動しているか研究し、愚かな人類の社会システムを変革する必要がある。

民主主義か市場主義の選択ではなく、民主主義のシステムとプロセスに、市場主義のシステムとプロセスを共存・共生・共進化させること、そのためのライフサイクル(生活環)としての戦略を学ぶ必要がある。ウイルスは「データ」として生きている。ウイルスは細菌、動物、植物、ウイルス自身の遺伝子の中や、海、空気、土壌や生物の身体の中に、大量のコピーを産出して、超高速に進化するとともに、何万年でも不活性化して存続できる。ウイルスは単純な寄生生物ではない。宿主と共存・共生し、宿主を進化させて、種の概念すら超えて、多様なライフサイクルを獲得し続けている。データ経済やデータ社会にライフサイクルの概念を導入すること、データサイクルの概念を明確にすること、「データ論」を書く動機としては十分だろう。

◆近代哲学が書かなかったこと、表現の問題

近代哲学を確立した17世紀の哲学者、スピノザとライプニッツは決定論の最先端にいた。しかし、スピノザにとっては表現の問題が、ライプニッツにとっては個体差の問題が、決定論には収まりきらない、未解決の問題だった。遺された文章の何十倍も考えて、哲学者としては寡黙に語っただけだった。哲学は概念を重視するため、「属性」として概念化できる世界の解明、すなわち異なる「属性」の論理的な関係の明確化に挑んでいる。しかし、実際に起こる事象は、「属性」に与えられた「所与」であって、個体差を伴い、特定の主体にとって明確な意味のある事象、例えば表現の問題となる。哲学としては難しい議論になるけれども、「属性」を定義するのはデータベースであって、データベースに入力するデータ項目の値、データを「所与」だと思えばわかりやすい。

「データ」を「属性」に対する「所与」だと考えると、哲学が「属性」を言語によって定義し始める前から、「データ」は非言語的に存在していたとも言える。「属性」を中心に考えると、「所与」は期待値からの誤差項でしかなくなる。近代科学がまさにそのように「データ」を決定論的な方程式の実験誤差として理解していた。誤差項は確率論の中心極限定理によって正規分布で近似できるということになる。しかし「データ」を出発点にすれば、期待値は計算できても分散が計算できないような、もしくは分散よりも高次のモーメントがゼロではないような、明らかに正規分布とは異なる分布を示す「データ」はいくらでも見いだせる。哲学のような言語的な解釈では、「所与」すなわち「データ」の世界はとらえきれないので、「個体差」とか「表現」の問題は哲学的な難問となる。IT技術で「データ」をデータベースに集積することが出来るようになり、数理的なモデルで「データ」を解析できるようになったことで、「データ」の世界が実用的になった。「データ」そのものは「属性」が無くても存在しうるので、「データ」から「属性」を作り出す人工知能(AI)技術が「データ論」の技術的な出発点となる。

これからの時代はAI技術が人々の生活を大きく変えてゆくことは確かだろう。しかしAI技術にとっても「データ」は不可欠な要因であり、「データ」は技術の世界だけではなく、哲学においても文明論的な転回点となる。「データ」とともに生きるこれからの時代がどこに向かうのかよくわからないとしても、「データ」によって現在未解決の問題を技術的に解決しながら、哲学的な議論も大いにおこない、来るべき文明の入り口から、扉の先を覗(のぞ)いてみたいものだ。

◆機械文明と近代の決定論

機械文明というと、18世紀英国における産業革命以降の工場生産が思い浮かぶけれども、17世紀フランスの哲学者、デカルトによる機械仕掛けの世界観が最高峰かもしれない。デカルト以前にも土木工事の機械、農業機械や軍事用機械など、機械文明の前期は長く続いていた。しかし、レオナルド・ダ・ヴィンチが夢見た飛行器具と、デカルトの歯車仕掛けの世界は異質に見える。デカルト、スピノザに続くライプニッツが、歯車仕掛けの万能計算機を発明して、20世紀になってコンピューターとして実用化された。

産業革命の蒸気機関からコンピューターへと、機械文明もだいぶ変質し、おそらく量子コンピューターなどの量子機械で最終段階となる。最終段階が思想的に見て最高峰とは限らない。量子機械は多くの人びとにとって理解不能だろう。コンピューターは「データ」文明でも生き残るので、その移行期が理解しにくいかもしれない。人工知能ではコンピューターがヒトの知能を超えるとき、シンギュラリティーといっている。筆者は、ごく限られたヒトの知能において、ヒトがヒトの知能として明確に認識できている脳の機能において、シンギュラリティーがくることを否定しない。しかし、コンピューターはヒトをモデルにするのではなく、「データ」というコンピューターにとっての自然を相手にして、のびのびと発展してもらいたい。筆者にとってのシンギュラリティーは、生活に関する「データ」が自動的に集積され、コンピューターが「データ」からリアルタイムに「属性」を発見してデータベースを構築し、プログラムもデータとして管理・組み立てられる時点を想定している。このようにして始まるデータ社会はデータ経済の結果かもしれないし、機械文明からデータ文明へ移行する入り口なのかもしれない。

デカルトによる機械仕掛けの世界観はニュートン(ライプニッツ?)の微積分学を生み、時間反転に対称的な微分方程式で記述される決定論の世界が定式化された。熱力学には明確な時間の進行方向があり、生命現象を含めて、ほぼすべての自然現象は不可逆であるのに、なぜか決定論の世界観が受け入れられた。物理法則が数学の方程式で記述され(熱力学のような不等式ではなく)、厳密解が得られる場合は決定論の世界となることが信じられていた。

量子力学の場合でも、厳密解の確率的な解釈はありえても、ヒトが理解できなかったとしても(ベルの不等式は別物として※参考2)、方程式が世界を記述するという意味で決定論の仲間といえるだろう。しかし20世紀後半になって、ロジスティック関数やロトカ・ヴォルテラの方程式などの研究から、決定論的カオスが発見された。いわゆる複雑系としての世界観が生命現象や社会現象など、非決定論の世界でも数学的な記述を可能にした。もっと極端な例では、チャイティンの研究のように、数学自体にも、プログラムの停止確率のような、本質的な意味でのランダムネス、多くの非決定論の世界が発見された(※参考3)。そもそも素数の分布はランダムに見えるけれども、リーマン仮説のような深い数学的な構造が隠れているかもしれない。ランダムな世界は決定論の世界ではないけれども、でたらめではなく、自然もしくは実在(数の実在性を信じるという意味で)そのものなのだと思う。

◆哲学における言語論と「データ」の概念

「データ」は所与であって、「属性」のように概念で理解できる対象ではない。しかし「データ」という概念は別問題だ。哲学的には「所与」を個体差の問題、もしくは表現の問題として概念的に理解しようとすることに対応している。個体差の問題を一番簡単に概念的に理解しようとすると、「私」と「あなた」の「データ」が異なることから出発するとよいだろう。「私」と「あなた」の個体差を何らかのモデルで表現できるとすれば、「データ」に含まれる全ての個体の組み合わせについて個体差を計算して、個体差の期待値や分散が計算できる。多くの場合、こういった計算が統計モデルと一致する。しかし、「私」と「あなた」が男女のペアとは限らないし、「データ」に含まれるペアの組み合わせに何らかの構造がある場合、個体差をこのように単純に定義するわけにはいかない。そこで筆者は個体差を『「私」と「あなた」の差異が表現していること』と理解したい。言葉遊びではなく、「表現」をモデル化するという意味で、「データ」としての個体差そのものをモデル化しないことがポイントになる。「表現」は言語的な概念であって、「データ」からそのような概念を発見するプロセスを重要視している。現在はヒトが発見しているけれども、ビッグデータについてはAIプログラムがプログラム言語的な表現を発見することを想定している。

「データ」の世界は誤差や欠測を伴い、間違いなく非決定論の世界となる。「データ」の取得から解析まで、全てが機械仕掛けで自動化されたとしても、「属性」間の関係をAIプログラムが自動的に発見したとしても、デカルトやライプニッツの決定論の世界とは異質な世界になるはずだ。「属性」と「データ」の関係を「集合とその要素」のように考えるとわかりやすいかもしれない。しかし、「属性」は概念の言語的表現、「集合」は数学的な概念の明確化であって、「データ」はそのどちらでもないことから、このような簡単な理解は出来そうもない。そこで「データ」を個別のウイルスやプログラムのようにみなしてモデル化してゆきたい。個別のウイルスやプログラムは何かを「表現」していると仮定して、その意味までは問うことなく、非言語的にモデル化しようとする立場だ。プログラムはプログラム言語によって表現されているし、ウイルスをそのゲノムが表現していることを考えれば、「非言語的」というよりも、「非人間的言語」によってモデル化するというほうが正確だろう。通常は人工言語というのかもしれないが、ウイルスの遺伝子コードや数そのものは自然の一部という考え方で、非人間的言語と記述した。「データ」はより一般的に「非言語的」に何かを表現していると仮定して、「非人間的言語」によって「非言語的」に何を表現しているのか理解する試みとも言い換えられる。

◆人類とコンピューターおよびウイルスとの共存・共生・共進化

データ文明になって、人類とコンピューターが共存せざるを得ないのは確かだとしても、共生・共進化できるかどうかは疑問がある。「属性」があらかじめ定義されていなくても、「データ」が存在しうるように、コンピューターの存在が「データ」の必要条件ではない。「属性」として概念的に理解できない個別の事象、ニュースの画像やSNSのコメントがファクトやエビデンスとして大量にコピーされ真偽は問われない世界、自分の生命も個別の事象でしかないという意味で、私たちはすでにデータ文明を生きている。人類は長い間、機械文明を生きてきたことは確かだろう。しかし、機械文明が終焉(しゅうえん)し、データ文明が開花することは疑わしい。議論が行き詰っていた時に、突然ウイルスの話が割り込んできた。ウイルスは機械文明にうつつをぬかす人類を滅亡させるかもしれないし、人類はウイルスの英知を学んでデータ文明を開花させるかもしれない、そのような分水陵が見えてきた。人類とコンピューターの共存・共生・共進化には必要性や必然性はないけれども、人類とウイルスは共存・共生・共進化してゆく以外に、人類の未来はない。そして人類がウイルスを理解できるとすれば、コンピューターによるAI技術が不可欠になると気が付いた。

「共存・共生・共進化」は本稿の記述のために工夫した概念であって、出来ればひとことで表現したい。「共存・共生・共進化」の概念は、生物物理学でいうルースカップリングに近い概念だと思う。その概念をデータ解析の方法として、「回る相関係数」として再定義したい。時系列解析のように、時間データが明示的に含まれていれば、力学的な運動としてデータから「回る」部分を抽出することは可能だろう。力学モデルではなくても、複素数の実在性を信じることが出来れば、複素数が世界を記述する人工言語であることを認めれば、複素関数論の留数定理によって、発散する特異点の周りを回る定積分によって、多くの数学的な事象や量子力学的な事象に「回る」部分を発見できる。複素数が記述する世界には波のような「位相」がある。話が食い違うことを「位相」が合わないと理解すれば、私たちは複素数で話しているのかもしれない。

ランダム行列の固有値の分布が、素数の性質を表現しているリーマンゼータ関数の特異点の分布に類似している、もしくは実際に何らかの関係があるとすれば、「回る相関係数」は「データ」の世界に普通に定義できるようになるかもしれない。生活データにとって意味のある「回る相関係数」を発見できれば、概念としての生活環ではなく、「データ」としてのライフサイクル、すなわちデータサイクルを記述する、新しい非人間的言語になるだろう。生活データは、ヒトの生活データかもしれないし、ウイルスの生活データ、すなわち環境中ウイルスの環境データとゲノムデータが交絡するデータかもしれない。「発見できれば」という仮定の話なので、データサイクルがどこに潜(ひそ)んでいるかわからない。

◆「データ論」の目的

もし実際に書かれることになれば、「データ論」は、データ文明論であり、データ社会論、データ経済論、データ産業論でもあって、ただしデータ製薬R&D論ではない。環境ウイルス分析にAI技術を応用する「データ製薬R&D」は、もし実際に実現できれば、筆者のビジネスとしたいからだ。データ論は技術哲学に導かれた技術思想であって、最終的には特許出願しうるアイデアを模索する。特許は新規な技術によるビジネスを保護するとともに、技術思想として公開するための制度であって、資本主義社会における産業活動の根幹となる制度だ。数学的発見が特許にならないように、データ解析方法だけでは特許にはならない。しかしデータ解析に関する新規な技術思想は、新たなデータの産業的応用を示唆して、特許を生み出す源泉となるはずだ。

「データ」に関する新たな技術思想は、経済活動における産業的な応用だけではなく、経済活動そのものをデータ化する可能性がある。ビットコインのような電子マネーは、暗号化アルゴリズムと分散データベースの技術で成立している。貨幣のデータとしての性質を探求すれば、労働力や土地といった基本的な経済学の概念もデータ化しうることが分かる。労働者の生活がデータ化されれば、労働力がデータ化される。労働力を売るということと、プライバシーを売ることに本質的な差異はないだろう。少なくとも職場における労働者の活動はデータ化され、賃金として計算されている。土地はマップとしてデータ化され、自動運転技術に不可欠な要素技術となっている。株式市場はほぼ完全にデータ化され、ミリ秒の取引が行われている。正確な予測が困難な状況では、迅速な取引が必勝法となる。取引を監視するプログラムが、人間的な心理をコントロールする政治的な策略を見抜くようになれば、データ経済が本格化するだろう。

ウーダループ『OODA LOOP-次世代の最強組織に進化する意思決定スキル』(チェット・リチャーズ著、東洋経済新聞社、2019年)のような、機動性を重視する軍事戦略が、現代の資本主義社会におけるビジネスにも有効だという。観察(Observe)を「データ」の測定と集積に置き換え、情勢判断をAI技術によるデータ解析だと思えば、囲碁や将棋などのゲームの必勝法となる。ゲームのような戦闘状況では、ヒトはコンピューターに勝てなくなった。しかし、そのような不敗の軍事戦略を実行する米軍において、多数の帰国兵の精神障がいが社会問題となっている。一時的な戦闘に勝っても、人間と社会は慢性的に疲弊してゆく。ウーダループはPDCAサイクルもモデルとして含むとしているけれども、ウーダループはスピードを重視し、PDCAサイクルは継続性を重視していることが本質的に異なる。その両者に欠落していることが、何の周りを回るのかという、見えない特異点の存在だろう。その特異点が本質的なものであれば、見えなくてもぶれることなく回ることが出来る。データ社会は特異点の周りを回る社会になるはずだ。「データ論」では社会制度としての特異点を探してゆきたい。

「データ論」は技術思想であって、農耕技術や産業革命以降の機械文明が解決できない、もしくは機械文明自体が作り出している問題を、データ文明として乗り越えてゆく技術を思い描いている。例えば、国連の持続可能な開発目標(SDGs)は素晴らしいけれども、近代の政治・経済的な問題設定でしかなく、これらの問題を作り出している機械文明の限界は意識されていない。データ文明では、このような機械文明の問題点をインターネットの情報からリアルタイムに抽出・監視することが考えられる。アンドロイドやAIロボットは機械文明の末裔(まつえい)かもしれないし、データ文明の新生児かもしれない。同じ技術でも技術思想が異なれば別の未来となる。データ文明が開花するためには、その技術思想が新たな時代の倫理思想を実現するものでなければならない。スピノザのエチカは機械文明における倫理思想であり、光のエチカだった。スピノザが書かなかったデータ文明におけるエチカの入り口に立つこと、そして行き止まりや袋小路を見通して、消去法になるかもしれないけれども背理法としてではなく、できるだけ希望に満ちた未来への道を発見したい。

「データ論」の準備として、「データ論」の(1)目的について考察してみた。「データ論」の準備ができれば、「データ論」を書き始めることはできるだろう。しかし、とても書き終わるとは思えない。そもそも「データ論」はニュース屋台村の記事なのだろうか。筆者の記事は異質かもしれないけれども、自分なりにジャーナリズムの勉強をして、科学論文ではない、ニュース性のある記事となるように工夫しているつもりだ。しかし、現在や過去の事件を深堀するのではなく、難しい哲学の議論や難解な芸術作品の空白部分、わずかに空白として表現された未来への希望を読み取って記事にしている。AI技術というと、米国の巨大IT企業の話か、中国の国策に関する記事が目に付くけれども、筆者は米国と中国のAI技術は、技術思想としては機械文明の破局にしか見えない。ウイルスを独占しようとすれば、地球上のすべての生命を独占するしか方法がない。「データ」を独占する場合も同じだろう。決して独占できない「データ」を、独占しようとして米国と中国が競争している。「データ」を公開するほうがまだましだとは思うけれども、ウイルスの多様な生活環にはかなわない。「データ」との付き合い方を根本的に見直す必要があるだろう。だからデカルト・スピノザ・ライプニッツにさかのぼり、記述されなかった技術思想を読み取り、未来に向けた記事にしている。次回以降は、「データ論」の準備として、(2)方法、(3)全体構想、(4)問題設定について考えてみたい。

 

参考1:ロトカ・ヴォルテラの方程式
https://ja.wikipedia.org/wiki/ロトカ・ヴォルテラの方程式

参考2:ベルの不等式
https://ja.wikipedia.org/wiki/ベルの不等式

参考3:グレゴリー・チャイティン
https://ja.wikipedia.org/wiki/グレゴリー・チャイティン

 

 

コメント

コメントを残す