п»ї データと意識 『みんなで機械学習』第19回 | ニュース屋台村

データと意識
『みんなで機械学習』第19回

4月 26日 2023年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆制作ノート

英国の経済学者エルンスト・シューマッハー(1911~1977年)の「スモール イズ ビューティフル」における中間技術の提案を、「みんなの機械学習」として実現するため、「スモール ランダムパターンズ アー ビューティフル」という拙稿を連載している。前稿では、データをベクトルの観点から再考してみた。前稿をふり返りながら、本稿への足掛かりを探して、「制作ノート」としている。本稿は途中の画像以降なので、制作ノートは、飛ばし読みしてください。

「スモール ランダムパターンズ アー ビューティフル」のゴールは、結論ではなく、希望を実感することにある。古典的なモノの価値を問う経済から、コト(サービスなど)の意味を重要視する経済への移行を時代背景として、近未来のデータサイエンスが、人類の文明論的な変革をもたらす夢物語を、少なくともディストピアとはしない、複数の道程を探そうとしている。物語のゴールにおいては、意味が認知される以前の「データ」そのものが、みんなの機械学習によって、「言語」とは別の、文明の道具になるだろう。

◆みんなの機械学習

シューマッハーの中間技術は、おもに農業技術であるため、生活に直結している。一方で、社会がサービス産業化しているとはいっても、機械学習は特殊な技術で、生活に役立つとは思えない。機械学習を天気予報と比べてみたらどうだろうか。天気予報を仕事とする人は少数であっても、みんなの天気予報といってもあまり違和感がないだろう。みんなの機械学習も、機械学習を仕事とする人は少数であっても、機械学習の結果としてのデータサービスが、みんなの生活の役に立つのであれば、機械学習を中間技術と考えてもよいのではないだろうか。『市民的抵抗:非暴力が社会を変える』(エリカ・チェノウェス、白水社、2022年)は、3.5%のひとびとが政治体制を変革しうるという「市民的抵抗」の研究書だ。みんなで機械学習は、言葉からデータへ、価値から意味へという、文明論的な変革を考えているので、「3.5%ルール」は当てはまらないにしても、みんなの問題について、5%以下のひとびとが真剣に機械学習をして、多くの解決策を有償無償のサービスとして提供するようになることで、みんなの生活も変わるだろう。

政治的な変革の場合は、「敵」を明確にすることが決定的に重要だ。文明論的な変革の場合は、「敵」は自分自身でもあるので、問題を明確にして、問題解決の方法が、問題を作り出した方法とは決定的に異なることを示す必要があるだろう。政治的な言動によって、問題を解決できるかもしれないけれども、問題を作り出したのは政治的な言動なので、もっと大きな問題にすり替えるだけかもしれない。言葉からデータへという場合、正確には「データによる予測」をサービスとして提供することを想定している。政治的なリップサービスが信用できないのは言うまでもない。政治的な変革には、経済体制の変革も含まれる場合が多く、経済的な価値を独占したり分配したりすることが問題になる。しかし、意味のないコトまたはモノに価値がないことは明らかだろう。予測不能な現状や未来において、無意味な世界(コトまたはモノの集合)の中で生きるしかなく、生きる意味も失いかけている。人口が爆発し、人類が繁栄していた時代とは異なり、人類の未来は、地球を破壊しつくすか、人口減少の局面で、人類の絶滅を回避する努力を行うのか、岐路に立っている。立ち止まって、意味のないデータから、意味を見いだすことから再出発するしかない。マクロ経済学者が経済の成長戦略を議論しても、核戦争を政治的道具とする無意味な世界から本質的に新しい価値は生まれない。みんなの機械学習は、社会変革を体感する(急ブレーキも含めて)機会でもある。

◆近代哲学の限界

難解な哲学的な議論をするつもりはない。問題は単純なのに、筆者自身も含めて、何十年も出口が見つからないだけだ。筆者が半世紀考えた問題は、薬効の個体差だった。統計学の立場からは、個体差は「真の」薬効を評価するための誤差項のようなものとみなされる。本当は、病気の治癒過程の個体差にとって、薬効は誤差項のようなものであったとしても、「真の」薬効が存在するかどうかを問題にしてきた。より正確には、「薬効が存在しないということは、5%以下の確率でしか正しくない」、という帰無仮説をデータで証明しているに過ぎない。哲学的に言えば、個体差を議論する論理的な方法は確立できていないというだけのことだ。論理的に「正しい」ことは、すべての人にとって正しいことだけれども、論理的に「正しい」ことは、自然現象の何%を説明できるのか、誰も知らない。数学における整数論の正しい命題であっても、論理的には証明できない命題が存在することが、論理的に証明されている(ゲーデルの不完全性定理)。量子力学の理論と実験結果から、正しい結論であっても、原因と結果を論理的には説明できない(ベルの不等式)。すべての人にとって正しい人間の論理は、数学も含めて自然現象を説明するためには、表現力が不足している。

近代合理主義哲学は、デカルトから始まり、スピノザを経由して、ライプニッツまで、近代の高揚感とともに、中世からの決別を成しとげた。その近代哲学の総決算を試みたのが、フッサールの現象学だ。フッサールは、ライプニッツ最晩年の難解な「モナドロジー」も含めて、合理主義哲学における認識論の根本的な解決方針として、「意識」作用に注目した。「モナド」とは、個体としか言いようのない現象を概念化したものだ。個別の測定結果や知覚作用が無ければ、データは無いので、データが所与であることはわかりやすい。しかし、通常はデータを意識することは無いので、データはモナドとは異なる。モナドは、近代哲学の最難関なのだ。筆者の立場はプラグマティックで、モナドなど忘れて、データだけを考えようというものだ。さすが碩学(せきがく)のフッサールも、スピノザの「神すなわち自然」というテーゼの深淵までは見通せなかったようだ。筆者の勝手読みでは、自然は人間の論理では理解できない部分を多く含み、超越者(神すなわち自然)によって与えられたのだから、実際に与えられたデータを大切にして、ひとびとの可能性を信じるということになる。スピノザの哲学は、哲学の自由を希求することで、近代哲学から逸脱し、未来に開かれた哲学となった。

◆意識はベクトルだった

フッサールの現象学は、意識と意識作用を注意深く区別しているけれども、現代においても、意識とは何か、意識の仕組みについて、ほとんど理解できていない状況なので、その区別に意味があるとは思えない。フッサールの時代においては、意識とは「無意識ではない意識」程度の理解だったのだろう。そのような時代背景で、「意識とは、なにものかにたいする意識である」と、意識の志向性を見抜いたのはさすがだ。意識は、方向性がある数の一般化、すなわちベクトルだったのだ。意識がベクトルだとすると、座標変換が自然に定義されるので、座標変換によっては変化しない自己意識と、座標の取り方で見え方が異なってくる他者の意識が区別できる。座標変換として、直交座標であるデカルト座標を想定するだけではなく、回転する極座標も仲間に入れると、意識に位相が導入できる。身体の運動では、前後左右上下が区別できる直交座標が分かりやすいけれども、感覚や意識の変化では、ミリ秒のオーダーで多数の神経を同期するための、脳波や意識の位相を極座標で理解するほうが分かりやすい。位相をリセットして同期させ、意識ベクトルの方向を合わせる。意識に複数の方向がある場合は、ベクトルをテンソルに一般化すればよい。

意識ベクトルをリセットしたり同期したりする意識作用は、脳内の神経細胞だけではなく、個体レベルでも、表現の場として、意識が相互作用する場でも起こりうる。表現の場を、ベクトル場だと想定すれば、勾配(こうばい)(gradient)発散(divergence)回転(rotation)というベクトル演算が自然に定義できて、力学的な観点での意識の運動が記述できるようになる。表現の場は、力学的な場としてだけではなく、状態量をうまく定義すれば、熱力学的なシステムとしての、巨視的な変化としても記述できるだろう。モノの世界を、物理学によって、数理的に記述することに違和感が無かったとしても、意識や表現のような、現象学的な対象を、数理的に記述できるという保証はない。筆者の考えは逆で、現象学的な対象は、論理では記述できないほどに複雑であって、言語よりも数理のほうが可能性があると考えている。ただしその数理は、所与としてのデータの数理であって、物理のような普遍法則の数理ではない。データはベクトルとして与えられるので、意識もベクトルと考えるほうが自然なはずだ。

◆データにとっての技術と自然

コンピューターにとって、データは所与であって、人間における自然のようなものとみなせる。従来のデータは、人間が特定の目的のために、データを計画的に入手して、コンピューターに入力していた。よく手入れされた庭のような自然だ。最近では、画像などのセンサーのデータや、構造化されていない文字情報のデータを、機械的かつ大量に、コンピューターに蓄積している。コンピューターにとっての自然(すなわちデータ)は、より自然で(人為的ではないという意味)、人間にとっての意味や価値以前の、もしくは匿名化処理などで、意味や価値が失われた、既にそこにあるデータとなっている。一方で、データ自身にとっての自然を理解して、自然科学としてのデータサイエンスを模索するためには、データをデータベクトルとして数理的に理解することが、出発点となるだろう。データベクトルの表現空間が、ニュートン力学のような、普遍的な一般座標系を持っているとは考えにくい。アインシュタインの一般相対性理論における、重力で歪(ゆが)んだ局所の4次元曲面をつないで作る宇宙像のほうが近い。個体差を表現する局所座標系においても、線形なベクトル空間であることを仮定したい。特に、局所の中心部では特異点があるかもしれないので、積分形式を意識して、局所の周辺におけるベクトル空間とベクトル演算が可能になるように工夫する。そのような局所を発見すること、局所と局所のつながりを発見することができれば、それはデータにとっての自然となるだろう。

データにとっての自然(局所ベクトル空間)を発見するのは人間だとしても、その発見の方法をコンピューターが実行できるプログラムとして、試行錯誤することは可能だ。その試行錯誤の方法も、ある程度プログラムで表現できると仮定すれば、いわば、データマネジメントの自動化は、データにとっての自然を、データ自身が使いやすいように整備する、データにとっての技術に相当するだろう。

難解な議論になってしまった。しかし、哲学の文脈では、真・美・徳といった難解な議論が価値あるものだった。資本主義社会の、過度に経済化した価値観では、難解な議論が損得の問題に単純化してしまった。単純化するということは、単純ではない部分を無視したり、政治力や軍事力のような、単純な力で破壊したりするということでもある。しかし、自然は人間のように単純にはできていないので、自然を破壊することは、人間自身も自滅することになる。コンピュータ―にとっての自然として、架空の自然を想定して議論することで、より具体的に難解な議論を構成することができるので、哲学の難問も含めて、近代文明が残した社会的な難題を「局所的に」解決する可能性が生まれる。部分に分解する要素還元主義ではなく、局所の座標系を発見して、局所間の座標変換を実験する、部分から局所へという、文明論的な変革を模索している。

農園の芝桜 2023年4月9日 筆者撮影

『スモール ランダムパターンズ アー ビューティフル』

1   はじめに; 千個の難題と、千×千×千×千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3      私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス アンド テクノロジーへ

2.3 データサイエンス テクノロジー アンド アート

2.4 データサイクル

2.5 データベクトル(前稿)

2.6 局所かつ周辺のベクトル場としてのデータとシミュレーション

哲学が生まれた2500年ほど前から、脱構築されつつある今日まで、人間にとっての技術と自然は、さまざまに議論されてきた。しかし、人間が人間の言葉で議論するのだから、人間中心の議論とならざるを得ない。難解な哲学的議論とは無縁であるかのように、経済力と人口は爆発した。そして単純な政治力や軍事力によって、場合によっては、単純ではないけれども理解もできない経済力と技術力によって、ひとびとは支配され、自然は破壊され続けている。経済はサービス産業化され、IT(情報技術)やAI(人工知能)技術が、ひとびとの生活に浸潤しているので、ひとびとは支配されているという実感はなく、意味や価値を失った人工物のような自然とともに、生きている。近未来においても、コンピューターと共存するしか選択肢は無いとしても、コンピューターと共生したり共進化する、より積極的な未来像は描けない。どこがおかしいのか、何が欠けているのだろうか。人間中心の考え方が袋小路となっているし、論理や個人主義など、おおくの過剰な普遍的価値によって、未来を見失っていることすら気づいていない。だからこそ、難解で過剰な言語から脱却する、文明論的な変革のチャンスでもある。人間の言語をまねるChatGPT(チャットジーピーティー=Chat Generative Pre-trained Transformer)は、近代文明の延長であって、分かりやすい。しかし、本論はデータそのものへと遡(さかのぼ)り、データにとっての技術と自然を探求している。個体差を伴うデータのデータマネジメントを、機械学習によって自動化するという未踏の探求路入口から、次のベースキャンプへと向かっている。個体差を伴わないデータは、物理学者かChatGPTに任せておけば十分だろう。個体差を無視した従来のデータ解析の方法は、健康データや経済データでは限界があることは、経験的に明らかだ。

人間中心ではないのだから、自己中心ではありえない。近代哲学の創始者であるデカルトが、自我に哲学の根拠を求めたように、近代哲学の総集編でもあるフッサールは、意識を現象学の根拠と考えた。しかし、数学であっても確実な世界を見いだすことは出来ず、複数の非ユークリッド幾何学のうち、現在の宇宙に近い構造を仮定することが精いっぱいだ。自分のデータと、他者のデータは、データとしては区別する必要はないかもしれないけれども、自分の健康や経済を予想したいのであれば、自分のデータが必要であることはいうまでもない。ChatGPTは大量の文章データを学習したかもしれないけれども、自分のデータは単語の羅列でしかない。ChatGPTに個人情報を吸い取られるだけで、思想的に得ることは少ないだろう。自分のデータを、大量にコンピューターに機械学習させるためには、安価でしかも他者のデータも豊富であることが望ましいので、人間にとっての意味や価値が明確な個人情報は含まない、機械的なセンサーデータが有力になる。健康データであれば、脳波や心電図、経済データであれば、街の人出やエネルギー消費などだろうか。それぞれ、バイオマーカーとオルタナティブデータとして、10年以上研究されているけれども、個体差の問題があって、十分に利活用されているとはいいがたい。

個体差の問題とは、結局、局所の問題であって、局所をいかに見いだしてつなげてゆくのか、マクロとミクロの中間層のくりこみ理論のことだ。ネットワーク理論においても、中心部のハブと、末梢のポークの中間層が重要で、個別の発見的な探索が必要になる。ひとびとにとって、個体差があるのは自明であっても、スズメの個体差を見いだすのは困難だし、細菌に個体差があることには疑問があるだろう。本論は、「個体差は個体差の表現の個体差である」という発見から始まっている。表現には個体差を増幅する作用があり、表現の場は鑑賞者の集団なので、個体差は局所的な集団においてしか定義できない。しかも、局所的な集団は時間とともに、動的に変化する。個体差の問題は、哲学や物理の問題ではなく、探索的なデータ解析の問題だ。探索すべきデータのデータマネジメントと、探索の方法(アルゴリズム)はコンピュータープログラムとして「機械学習」するので、個体差を機械学習すること(フェノラーニング®と名付けている)が、当面の目標となる。

データをデータベクトルとみなして、個体差データにおける局所表現空間を発見・構成する場合、局所座標系は個体差の表現型(フェノタイプ)の予測因子となるだろう。例えば、健康データの場合、表現型としては性差や年齢が対応するとして、くりこまれるのは「身体」と「集団」における「場所」の表現と考えられる。経済データの場合の表現型は、1人当たりGDP(国内総生産)や物価など、それ自体が研究対象であって、「場所」としては地域、特にメッシュ統計における地域がくりこまれると考えている。物理学におけるくりこみ理論は難しいけれども、メッシュデータの場合は単純で、細かいメッシュにおける局所座標と、粗いメッシュにおける局所座標の関係を探索することを想定している。フェノラーニング®については、次章以降で説明するとして、「データにとっての技術と自然」の最終段階として、コンピューターがデータを作り出すこと、シミュレーションについて考えてみよう。

人間の技術は「火」から始まり、熱力学というサイエンスに到達して、技術とサイエンスが近代国家において融合して科学技術となり、地球を破壊しうる核爆弾まで手に入れた。一方で、コンピューターにとっての自然であるデータは、シミュレーション技術によって、自己増殖を始める。ゲームや文章の穴埋め問題のように、「正解」が判定しやすい問題の場合は、ランダムなシミュレーションであっても、膨大な回答をランダムに作成して、正解となる確率から、機械学習が可能になる。個体差があるデータの場合でも、例えば1000人のデータから、ランダムに2人のペアを抽出して、仮想的な合成個人データを作成すれば、容易に100万人規模のデータとなる。これらのデータから、個人のデータを予測して、予測誤差を評価すれば、機械学習が可能だ。シミュレーション技術とは、組み合わせ論的な爆発を伴う、データの生成技術なのだ。機械学習に大量のデータが必要であること以上に、高速で大容量のデータ駆動型スーパーコンピューターが不可欠であって、そのようなスーパーコンピューターは、覇権国家と巨大グローバル企業が独占しているし、単独首位をめざして熾烈(しれつ)な競争が行われている。個体差があるデータの場合は、みんなが自分自身の局所を探索するだけなので、パソコンで十分だし、競争する意味もあまりない。ただし、みんなが見いだした100万個の局所をくりこみ技術でつないでゆけば、ある程度の世界像が見えてくるだろう。緊急に解決しなければならない社会問題や自然環境問題は、簡単に数百個は思いつくので、みんなで機械学習する課題に不足はない。コンピューターの中で構成された世界において、問題解決をシミュレーションして、未来への希望を見いだしてゆきたい。未来への希望が、富と権力を独占する少数者の野望から生まれることは、歴史的にも無かったし、確率論的にも期待できない。

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトOrangeでみんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、Orangeにフェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す