データ論の準備（4）問題設定
『住まいのデータを回す』第21回

4月 01日 2020年社会

山口行治（やまぐち・ゆきはる）

株式会社エルデータサイエンス代表取締役。元ファイザーグローバルR&Dシニアディレクター。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得（薬理学）。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

筆者のライフワークとなるかもしれない「データ論」にむけて、（１）目的（２）方法（３）全体構想――と準備を進めてきた。今回は（４）問題設定、データ論の準備の最終回となる。データ論の目的は、機械文明の限界を乗り越えて、データ文明が開花するための技術思想を模索しながら、現状では解決の見込みのない問題群に「データ」技術によってアプローチすることだ。その近未来の技術思想を「データサイクル」と命名している。データ論の方法は、「データサイクル」という技術思想を、具体的に構築するための方法だ。ウイルスはデータとして生きているという仮説から、ランダムなウイルスのあり方を数学的に解析するための方法を模索する。ランダム行列の理論が出発点となる。「データ論」の主役は「ランダムなひとびと」で、「ランダムなひとびと」の生活は常在性ウイルスの動態としてデータ化できると仮定している。マイクロバイオームの紹介として、『あなたの体は9割が細菌: 微生物の生態系が崩れはじめた』（アランナ・コリン、河出書房新社、2016年）というベストセラー本があるが、その細菌はウイルスと「共存・共生・共進化」している。

データ論の全体構想は、バールーフ・デ・スピノザ（1632～1677年）の信じた神の物語「エチカ」（神すなわち自然）を出発点にして、人びとの神すなわち自然が死んだ後に、コンピューターにとっての自然すなわちデータの時代となり、AI（人工知能）の神が復活する物語となる。「ランダムなひとびと」が、AIを神格化する巨大組織に抵抗しながら、新たな「データエチカ」（データすなわち生活）を構想することで出発点に回帰する。物語の中で、ランダムなひとびとが自問自答するそれぞれの問題は哲学的な問題だけれども、それらの問題を具体的な数学的な問題として問題設定することで、「データサイクル」の技術思想にたどり着きたい。問題設定は思いつくまま書きとめ、問題相互の関係は考えないことにする。このような問題設定自体を数学的に厳密に定義することは筆者の能力と生きられる時間を超えていることは明らかだけれども、それらが認知症を生きる人類の近未来の物語として、現状では解決の見込みのない問題群にアプローチするヒントとなることを願っている。

近代の機械文明では「自由」を希求し、工場労働者の無味乾燥な単純作業であっても剰余価値を生み出すことを社会的原動力としていた。労働力という特殊な商品の市場が成熟した時代とも考えられる。近未来のデータ文明では労働はAIロボットが行い、人びとは意味不明な生活を生きる。ランダムなひとびとは社会的な意味での「独立」を模索し、新しい意味を構築するための問題群の発見が、認知症を生きる人類の社会的突破力となる。現象学を構築したエドムント・フッサール（1859～1938年）の時代は、厳密な学問であることがラジカルな変革の原点であり、ヨーロッパ諸学の最期であった。過度に商業的なAI技術の時代では、予測不能な社会を生きる人びとの「問題発見力」が、倫理的判断の独立性と多様性の根拠となるだろう。

1 ウイルスデータの確率論
　次世代シークエンサーによって、生活環境において膨大な量のウイルスデータが集積される。ウイルスは進化論的に変異するし、宿主と複雑な共存・共生・共進化の関係がある。単純な統計計算では、どのようなスーパーコンピューターの計算速度をもってしても、ウイルスゲノムデータの進化予測すら、実在のウイルスに追いつかない。ウイルスデータを理解するための、ウイルスの生活環を考慮した、新たな確率論が必要だ。

1-1 素数の確率とプログラム停止確率Ω
　素数がランダムな分布をしていることはよく知られている。しかし現在の確率論は、サイコロの確率論の延長上であって、本質的にランダムな現象の、ごく一面しかとらえていない。ウイルスのランダムな変異のように、ごく微小な生存確率にもとづくランダムな現象を正確に予測することはできない。素数の発現確率は、素数が大きくなると急速に小さくなる。しかも、複素数の世界で見ると、ある種の周期性があるらしい。プログラム停止確率Ωは実数であることはわかっているけれども、計算不可能であることも証明されている（※参考1）。素数の確率やプログラム停止確率が、ウイルスの生活環としての生存確率にどのような関係があるのか、全く見当もつかないけれども、ランダムネス理解の深化が、サイコロの確率では理解できない(計算できない)確率現象への、新しい切り口となることを期待している。

1-2 量子確率の数理としての独立性
　量子確率（※参考2）に関しては、量子コンピューターが実現されて、実験的にある程度の実感が得られる時代になってきている。実験的に経験される量子確率は、古典的な命題論理の分配律が否定された量子論理では理解できない。数学的には、量子確率における「独立性」の概念を定式化したことで、古典的な因果関係を確率的に再考することが可能となった。ウイルスの生活環としての生存確率が、実用的なレベルで計算可能になったとしても、その意味がわからなければ理解不能となってしまう。量子確率の数理を模索することで、新しい確率現象を理解する少なくとも一つの実例が得られることを期待している。

1-3 生存確率の数理は8元数の関数なのだろうか
　ウイルスの生存確率は非常に特殊なもので、感染細胞が大量に生産するウイルス粒子は生きているとは思えない。しかし、非常に低い確率で別の個体の細胞に感染した後に、生きている状態になる。ウイルス粒子の生存確率を議論すると意味不明になるけれども、ウイルスの生活環（ライフサイクル）として、一つのループを個体のように考えれば、ウイルスの生存確率も意味のあるものとなるだろう。一方で、あなたが患者の場合、5年生存率が10％と言われたら、その意味をどのように解釈するだろうか。もし私が100人いれば、5年以上生きる私は10人とは理解しないだろう。5年以上生きる確率は低そうだけれども、生存確率としての10％の意味がよくわからないのではないだろうか。同じようなことは、大津波の発生確率が300年に一回といわれてもピンと来ないのに、明日の降雨確率が20％という天気予報は役に立つ。サイコロのように、何度か経験できる確率しか論理的には理解できないということだろう。小さな津波がたくさんあるように、小さな死（例えば細胞レベル）もたくさんあって、死の大きさを個体レベルまで引き上げた時の生存確率という解釈であれば、なんとか理解できるかもしれない。複素数を発展させた4元数や8元数は、量子力学や相対性理論などの物理学での応用が見いだされている。生存確率の数理も、4元数や8元数によって記述できるのだろうか。

1-4 ランダム行列としてのウイルスデータ行列
　遺伝子の塩基配列を高速に読み出せる次世代シークエンサーによって解析される環境中ウイルスの遺伝子データ、ヴァイロームのウイルスデータが膨大なものとなることは容易に推測される。そのような膨大なデータが無いと始まらないのは統計解析だけれども、数学研究はもっと膨大なデータをシミュレーションによって産生することもできるし、数学的想像力は無限のデータも取り扱うことができる。ウイルスデータもデータとしてはデータ行列であることに変わりはない。データ行列に乱数を代入するランダム行列の理論は急速に発展している（※参考3）。素数の分布と、ランダム行列の固有値の分布が、見方によっては類似性があるという意外な研究結果もある。量子論の場合は、そもそも確率的に定義された行列の固有値を求める計算を基盤としているので、ランダム行列との相性は良い。ウイルスデータ行列にとって、ランダム行列の意味は不明だけれども、進化論の再考にもつながるかもしれない生物学的な意味（例えば、宿主の遺伝子の中で生きるウイルスのような、再帰的な進化をシミュレートする可能性）を持っていると思われる。

2 意味の表現論
　ひとの言葉は、意味不明であることがたちどころにわかるように仕組まれている。「データ」は、データベースに収納されて属性が定義される（コーディングされる）と、ひとの言葉に近づいてくるので、データの意味を探索することが可能になる。近未来のAI技術によって、「データ」からデータベースが自動的に作成されるようになると、ひとが探索するデータの意味自体が意味不明になってしまうかもしれない。言葉によって理解していた「意味」を、意味作用素として言葉に依存しない数理的な理解とすることを試みたい。

2-1 意味作用素の逆作用
　ひとの言葉が意味不明である場合、その言葉は社会的文脈を無視している。他の誰かが使った言葉ではなく、他の誰かを想定した言葉でもないはずだ。他の誰かが他者に知りようのない誰かである場合も含まれる。意味作用素は、言語が社会的な機能を有していることを強調するもので、表現としては個人から社会への方向性を持っている。データ論としての意味作用素は、データをコーディングするプロセスに相当する。データをコーディングして、ひとの言葉のように意味がありそうな状態となっている場合、その逆のプロセス、知識のデコーディングはありうるのだろうか。ウイルスの遺伝子コードは生物としての意味作用があることは確かだけれども、その逆のデコード（暗号解読）がなかなかできない。そもそも、ウイルスには種という概念が無いかもしれないし、データとしてしか生きていなければ、ウイルスの遺伝子コードではなく、ウイルスの生活環をデータ化してデコード（暗号解読）する必要がありそうだ。

2-2 表現の不確定性
　表現は、表現者が表現を受信するもの（鑑賞者）を想定して製作する作品として成立している。キリストが、当時の民衆に向けて話したことが新約聖書という作品になっている場合、当時の民衆にとってキリストの表現は自明であったかもしれないけれども、私たちが鑑賞者となって新約聖書を読んでも、キリストの言葉の意味がよくわからないということはありうる。作品は時代と歴史によって暗号化されてしまっている。完全には暗号解読できないことを、表現の不確定性として、ある程度定量的に（不等号として）取り扱えないだろうか。

2-3 データ化と意味作用
　近未来では、コミュニケーションが可能な全てのモノ・コトがデータ化される。データ化されるという状況は、データを記録するコストが実質的にゼロとなり、データからデータベースが自動的に構築されることを想定している。文字は当然として、画像や音だけではなく、嗅（きゅう）覚・味覚・触覚も、それぞれのセンサーでデータ化されるようになる。データベースに集積されたデータは、それ自体では意味不明かもしれない。最初にある程度の教師データを与えれば、膨大なデータを使って、より正確な判断ができるようにプログラムすることが可能な場合、データから意味をプログラムで発見するといってもよいかもしれない。ヒトが与える教師データの代わりに、ゲームのルールや、自然の法則性を使うこともできる。言葉に依存しないで、プログラムがデータから自動的に意味を抽出する可能性があるため、意味作用素といっている。例えば、ウイルスの遺伝子コードのようなデータから、意味を抽出することを想定している。その場合、進化論を自然の法則と考えることができるかもしれないけれども、むしろ遺伝子コードの表現論を考えて、ウイルスも含む新しい進化論のあり方を探索するほうが有意義と思われる。

2-4 個体変動の表現論
　筆者は薬物作用の個体差を理解することをライフワークとしてきた。性別や年齢は個体が表現している生物にとって基本的な個体差であるため、性別や年齢を推定するために十分なデータを集積すれば、薬物作用の個体差も、合理的に解析可能になると考えている。ゲノムデータであっても、エピゲノムのように加齢や生活環境によって変化するデータであれば可能性がある。しかし、認知症治療薬の個体差を解析するためには、ゲノムデータよりも直接的な生活環境のデータを使うほうが現実的だと思い、『住まいのデータを回す』シリーズで試行錯誤してきた。体内の常在性ウイルスデータや環境中ウイルスデータも含めて、住まいのデータから意味を自動的に抽出して解析するためには、性別や年齢では不十分で、生物が表現する「場所」を理解する課題が明らかになってきた。生物が表現する「場所」は、個体の内部としては身体として認識されるし、個体の外部では他者との位置関係として認識されるという仮定に至っている。

3 水の動的構造からの分子認識
　細胞が生きる場所には、その内部にも外部にも水環境が不可欠だろう。最近では、地球の地層の中には、鉱物の水和水として、海にも匹敵する水環境があることがわかってきた（※参考4）。地層深部でも、多様な細菌と線虫などが生存しているし、間違いなくウイルスも存在しているはずだ。ウイルス粒子の場合は、無機物のようでもあるため、鉱物の水和水であっても、良好な水環境なのかもしれない。鉱物の水和水は明確な立体構造を持つけれども、液体の水の立体構造は動的かつ局所的なもので、物理的なモデルは難しい（※参考5）。しかし、タンパク質溶液をNMR（核磁気共鳴）で分析すれば、タンパク質が水分子をどのように認識しているか（水分子の集団がタンパク質分子をどのように認識しているのか）実験データを得ることができる。動的で局所的な水の構造が、地球生命が生きる場所といえるだろう。

3-1 タンパク質水和水の動的構造
　タンパク質結晶には多量の水和水が含まれる場合が多い。その水和水の動的構造がタンパク質の機能発現に深くかかわっている（※参考6）。いまだ細胞内のタンパク質と水分子集合体の動的構造は想像すらできないけれども、タンパク質結晶の水和水や純粋な水溶液の動的構造などから推論すると、水分子集合体の動的な構造が、生命の生きる場所であることは間違いないだろう。特に、細胞内のウイルスは核酸タンパク質集合体としての「超分子」（※参考7）なので、ウイルスにとって水分子集合体はまさに生きる場所のはずだ。細胞になると、脂質二重膜で閉ざされた、より明確で静的な内側と外側の生きる場所を獲得する。分子レベルでは、細胞内外の水分子の動的構造はよくわかっていないことが多いけれども、NMRを使ったMRI（磁気共鳴イメージング）は、体内の水分子の状態（核磁気緩和時間）を3次元画像化して、医学で絶大な威力を発揮している。NMRという現象は、原子核スピンの量子力学的な記述により、核スピンの制御と精密な数値計算が可能で、量子コンピューターの原型のようなものといえるかもしれない。少なくとも、液体ヘリウムの超低温で動作する装置としての、見かけはとても似ている。生命の生きる場所を計算するための量子コンピューター、近未来の科学は、機械論的なAI技術よりも深い生命の理解のために、水分子集合体の理解を必要としている。

3-2 分子集合体の動的ネットワーク
　超分子は、比較的安定な3次元構造を持っているけれども、水分子集合体のように、もっと動的な構造の分子集合体の場合は、動的ネットワークとして考えるほうがわかりやすい。全体としてみると、格子空間のような均質な空間構造の中に、局所的に大きな穴のようなものができて、その中にタンパク質が埋め込まれ、ところどころ水素結合で網目(ネットワーク)のような構造になるというイメージだ。この場合、生命としての主役は水分子の立体的で動的なネットワークであって、タンパク質ではない。地球型生命を理解するためには、このように基礎的な水分子集合体としての生命の場の理解が必要なので、遺伝子コードを理解しただけでは、生命の「生きていない分子のごく一部」しか理解できていない。

3-3 地球型生命としての細胞と、宇宙型生命としてのウイルス
　電子顕微鏡で観測されるウイルスはウイルス粒子であって、宇宙空間も飛行できるほど安定な超分子集合体だ。一方で、地球型生命としては、細胞が最小の構成単位であることはほぼ間違いない。細胞の中には多様なたんぱく質と水分子がギッシリと詰まっている。この意味ではウイルス粒子は細胞ではなく、従って地球型生命ではない。しかし、本当にウイルスが生きているのは、細胞に感染した後に、細胞内にウイルス生産装置を作成したときだとすると、ウイルスが感染した細胞（ヴァイロセル）は生きている。データ論であるのに、水分子やウイルスのことを考えるのは、「所与」として具体的な値を持つデータは、生命もしくは生活とは無関係ではありえないからだ。たとえ天文学のデータであっても、解析するのは人もしくは人が作ったプログラムであって、データから何らかの意味を見いだすとすれば、その意味は生命もしくは生活と関係している。

3-4 生命のデータ表現
　「ウイルスはデータとして生きている」とは、どういう意味なのだろうか。ウイルス粒子は遺伝コードをカプセル化したものなのだから、遺伝コードをデータと考えることが出発点になる。しかし、生きているウイルス、ヴァイロセルはどのような意味でデータとなるのだろうか。ヴァイロセルの中の、全ての水分子とタンパク質をデータ化することを想定しているのではない。ヴァイロセルで生産された膨大な数のウイルス粒子が拡散し、再度感染してヴァイロセルとなるウイルスの生活環をデータ化したい。生命にとって遺伝コードは網羅的なデータとなる。生活環を網羅的にデータ化するのにはどのような方法があるのだろうか。生活環という考え方には網羅性があり、生活環として生きる場所（宿主の連鎖）を網羅的にデータ化することが考えられる。

4 再帰的閉回路としてのデータ量とデータの独立性
　情報量が統計力学のエントロピーに類似した数式で定義されたことは偶然なのだろうか。熱力学はアナログな世界だけれども、統計力学や情報理論はデジタルな世界への入り口となっている。アナログな世界とデジタルな世界は、それぞれ、感覚的に理解できる世界と、感覚や経験ではとらえることができない世界と言い換えることもできる。データの世界は、定義からデジタルな世界だ。感覚でとらえられないのだから、なおさらデータ量として定量的に理解したい。しかし、データ量も感覚的に理解できない可能性がある。データ量は、データ行列の個体数（行）と属性数(列)を独立な成分数に限定して積算したデータ行列の次元数と仮定すると、やはり感覚的には理解できないだろう。さらに事態を悪化させるのは、データに再帰的構造を許す場合だ。実際、プログラミングにおけるデータ構造では、その多くが再帰的に定義されている。おそらく、データ量とは、動的に（暫定的に）しかとらえることができない量で、不等式で表現されることで、なんとか現実の意味が把握できるような量なのだろう。

4-1 データ構造における多対多対応
　複数のデータ行列の関係がデータ構造となる。データ行列が複数ある場合、同じ属性(列)を独立で異なる個体（行）で測定する場合と、同じ個体で、独立で異なる属性を測定する場合は、一対一対応となり、容易にデータ行列を結合できる。一般的には、関係データベースの理論として、複数のデータ行列の関係において「正規形」が定義されている（※参考8）。自然科学のデータは、連続値である場合が多いので問題が少ないけれども、社会的なデータはカテゴリー化されている場合が多く、複数の個体が同じカテゴリーとなり、そのカテゴリーに対応する別のデータ行列で複数のカテゴリーが対応すると多対多対応となってしまう。正規形を意識してデータベースを設計しないと、様々な状況で多対多対応となってしまう。むしろ、通常の言語表現では多対多対応が普通なのだろう。数学の関数概念では多対一までは認めているけれども、その逆関数である一対多の場合は多価関数として難しい話になってしまう。筆者としては、関係データベースで表現できるデータだけを「データ」と言いたいところだけれども、最近のビッグデータの多くは関係データベースではない。

4-2 データ量の定義
データ構造がうまく定義できないのであれば、せめてデータ量を定義したい。ビッグデータというと、データ量が多そうな感じがするけれども、データの多様性や集積速度などが重要で、単純にデータの記憶容量ではデータ量を決められない。情報量を熱力学のエントロピーに対応する数値として定義したのは素晴らしかったけれども、「生命は負のエントロピーを食べて生きている」（※参考9）とシュレーディンガー（1887～1961年）が喝破したのだから、生命を表現するデータのデータ量は、負のエントロピーを表現できる量（数値化）であるはずだ。もちろん、負の情報量は定義できないし、負のエントロピーの数学的な表現（負の組み合わせの数？）も筆者は知らない。量子力学的な真空のエネルギーがゼロではないように、データ行列を表現するランダム行列のデータ量はゼロではないということが出発点になるだろう。

4-3 データ行列から個体ネットワークを作成し、ニッチとエッジを探す方法
　通常の統計解析は、N行M列のデータ行列から、M行M列の共分散行列を作ることから始まる。一方で、個体間の距離（0,1の独立性）をうまく定義すれば、N行N列の非常に疎な結合行列を計算することができて、個体ネットワークを可視化できる。ネットワークを無向フラフと考えると、飛行機の航路図のようなポーク・アンド・ハブの構造が見えてくる。遺伝子ネットワークのような生物学的なネットワークでは、中心的なハブではない、中間的な制御層が重要な役割を果たすことが知られている。筆者の構想では、中間層に結合する外郭のネットワークでグラフとしての成長点を含むような構造をエッジとして抽出して、エッジに結合する中間層をニッチと定義すれば、中間層のなかでも最重要なノードを発見できるのではないかと考えている。

4-4 ニッチとエッジの統計力学
　上述のニッチとエッジは、動的なネットワークとして考えると、ネットワークの成長に伴って、エッジがニッチに折り畳まれるような現象が観察できるかもしれない。通常のデータ行列では、個体数Nが属性数Mよりもはるかに大きい。ゲノム情報のように、属性数Mが非常に大きい場合であっても、Mの中から独立な属性を抽出すれば、属性数はやはり個体数よりも少なくなるはずだ。従って、データ量はNxNの個体ネットワークを上限として、その中からニッチとエッジのような構造を抽出できれば、生物学的に意味のあるデータ量を推定できるようになるのではないかと考えている。ニッチとエッジのような構造には閉回路が含まれることは確かだろうし、動的なネットワークとして考えれば、再帰性が成長点のイメージとなっている。

5 データとして見た社会と個人
　個人情報保護法は個人の権利を保護するための法律であって、データ化された個人に関する近未来の法的議論は、さらに複雑で未踏領域だ。社会の構成要素としては、経済活動を行う法人格が定義されているのだから、データ人格もありうるだろう。高度な人工知能を有するロボットに人格を与えるかどうかというような哲学的な議論ではなく、個人データの経済的価値、医学的価値、軍事的価値などを明確にして、法的な根拠を与えようという提案だ。経済的価値、医学的価値、軍事的価値があるAIプログラムには大量の個人データが必要になる。そのようなAIプログラムを、既存の著作権や特許権で管理することは不可能だし意味がない。ジョン・ロック（1632～1704年）が人びとの自然権にもとづく社会契約論を考えたように、データという人工物が、人工的な自然となるような時代において、社会のあり方を根本から再考する必要がある。

5-1 個人データの集積は社会データではない
　社会の構成単位は組織であって個人ではないはずだ。個人はせいぜい家族の構成単位となる程度で、家族は社会的な意味での組織とはみなしにくい。個人データの経済的価値、医学的価値、軍事的価値などを評価しようとすると、大量の個人データが必要になる。多数の個人は通常多数の組織に属しているので、組織への帰属がデータとして与えられていない場合でも、組織を仮定することで社会的データと見なせる。国勢調査のデータは世帯単位であって、個人データではないけれども、その個票を解析すれば、個人データが見えてくる。世帯は家族とは異なる概念で、個人を含む最小の社会構成単位なのかもしれない。

5-2 個人データをコード化する生活
　人びとが生きる場所の経済的単位を世帯と考えると、核家族化や家族内の経済的自立などにより、世帯概念は時代とともに変化する。『住まいのデータを回す』では、玄関という出入り口のある居住空間内の生活をデータ化する方法を考えてきた。居住空間内の人感センサーのデータを集積しても、そのデータを適切に「コード化」できなければ、データの意味を理解できない。居住空間内に複数人が同居している場合、個人を識別できなければ個人データにはならない。画像データであれば容易に個人を識別できるけれども、たとえ認知症患者であったとしても、監視カメラのある居住空間で生きたいとは思わないだろう。人感センサーのデータと、個人の歩数計データを重ね合わせれば、居住空間内の、場合によっては都市空間内の個人生活データを、コード化できるかもしれない。

5-3 社会データをコード化する制度
　どのようにすれば経済データは社会データとなるのだろうか。医学データも、患者個人のデータと考えられる場合もあるし、感染症の疫学データや医療経済データは社会の現状や側面をとらえる社会データにもなりうる。軍事データの社会性は言うまでもないだろう。しかし社会の構成単位を組織と考える筆者の立場では、組織の個体差が評価できない限り、そのような社会データは、個体差を無視した個人データのようなものだ。個人の個体差とは異なり、社会的組織の個体差は漠然とした概念でしかない。組織として法人格のある会社組織に限定する場合は、特に株式会社として市場公開されている会社の場合は、個体差をある程度評価できるだろう。すなわち、ある社会的な制度の中で成立し運営されている組織の場合は、その制度の目的に応じて表現型を定義しうる。しかし、組織の場合は遺伝子コードのような網羅的なデータはどのようにして定義できるのだろうか。現時点では組織の表現型を十分な精度で推定しうるデータとしか言いようがないけれども、地域性とか都市としての特徴に加えて、職業のあり方を網羅的にコーディングすることができれば、組織の個体差も含む、経済・医療・軍事などの社会データが整備されるだろう。

5-4 社会的共通資本としてのコーディング技術
　人びとの生活にとって、個人的な衣・食・住だけではなく、社会的な経済・医療・軍事が重要であることは疑いようがない（教育は個人と社会という二項分類には収まらない重要なコーディング領域で、議論の深化が必要）。個人データも社会データも、個体差のあるデータをいかにコーディングするのかという視点では大きくは変わらない。膨大な量のデータを機械的に収集することができても、そのデータを適切にコ-ディングできなければ、データから意味のある結論を得ることは難しい。古典的にデータベースを定義してからデータを収集する場合とは異なり、膨大で網羅的なデータを収集した後に、コーディングしてデータベースを自動構築する場合では、コーディング技術が言語表現における意味や価値に対応するものと考えられる。言語が社会的共通資本であるように、コーディング技術も個人や組織が独占するのではなく、社会的共通資本と見なされるべきだろう。経済学者の宇沢弘文（※参考10）が考えた社会的共通資本は、経済活動のインフラとして広がりのある概念だ。データ論の文脈では、「コーディング技術」において社会的影響力が集約されるため、「コーディング技術」の社会的なあり方が、「適切にコーディングされたデータ」の適切性の議論となるだろう。

6 生活環の表現論とデータ文明
　産業技術から文明を考えるとわかりやすい。農耕が最初の産業技術で、宗教や学問などの文明を可能にした。同時に農耕は地球を砂漠化している。熱機関の産業革命は機械文明として、科学と技術の時代を作っていった。一方で、核兵器と地球の気象破壊は人類の存続すら脅（おびや）かしている。近未来の人類は、データという人工環境の中でしか生きることができなくなるだろう。農業技術による「食」の発展、機械技術による「衣」の発展、そしてデータ技術による「住」の発展ということになるのだけれども、発展は疎外や制約条件と読み替えてもよいかもしれない。自然の中から人びとの生活の場所が失われるということは、人類以外の生物にとっては朗報となるだろう。人口が爆発し続ければデータ文明はありえない。人口が減少し続けるのではなく、適当なレベルで増減を繰り返すことが、データ文明が成立する条件となる。

6-1 生活環（ライフサイクル）の数理構造
　ウイルスの生活環は驚くほど多様で、その多様性を表現できる数理構造は、全ての地球型生命の生活環を表現できるだろう。ヒトの生活環はかなり単純で、卵子に精子が受精し、その受精卵が細胞分裂を繰り返して個体発生を行うとともに、女性の場合は、減数分裂して作られた原始卵胞が出生後も大切に守られて、生殖年齢になって成熟した卵子を排卵する。しかし相手の精子を選択する社会プロセスは他の生物よりも複雑だ。生活環というのだから、数理構造としては、通常の数である「体」ではなく、割り算が定義されていない「環」の構造がふさわしいかもしれない。しかし非常に低い確率でしか振り出しに戻らず、しかも振り出しの状態は世代によって微妙に異なっていることを表現できるとすれば、それは関数の「環」かもしれないし、複素数や4元数を要素とする行列で特殊な形をした「環」かもしれない。ランダム行列が「環」の構造となる場合（逆元が存在しない場合）も、非常に低いけれどもあるかもしれない。例えば、０と１、もしくは0，1、i（虚数単位）だけで作られる正方行列で、逆元の存在しない組み合わせを作って、その行列の集合からランダムに部分集合を作ることが考えられる。こういった数理的な実験から、ウイルスデータの解析方法が見出されるのではないかと期待している。

6-2 データ文明における職業は経済的独立性を含意する
　社会的な役割分担や技術の発展によって、職業は多様化している。専業主婦を職業と考えても、専業主婦の実態は多様だろう。AI技術の普及によって、多くの知的労働がコンピューターに代替され、多くの失業者が生まれるという未来予測がある。しかし、100万馬力の自動車ができても、機械的な肉体労働の必要性は残っている。運転手が知的労働者ではなく、肉体労働者、もしくは専業主婦となり、職業や労働市場が再定義されるだけのことだ。生活がデータ化されるデータ文明において、職業はより多様化して、社会データとして網羅的にコーディングされる。データを私的に売買するデータ市場は否定しないけれども、データのコーディング技術は社会的共通資本として社会的に管理(公開もしくは禁止)する立場を「社会的データ資本主義」として明確にしたい。生活がデータ化されることを許容する条件として、職業が経済的な束縛条件とはならないこと、職業の経済的独立性を目指したい。生活がデータ化されることを拒否する立場もありうるけれども、医学の発展やインターネットの活用にも大きな制限ができてしまう。生活がデータ化される最大の恩恵は、省エネルギーの実現、もしくはフードロスの減少など、地球規模での環境問題を「技術的に」解決する可能性だ。「政治的な」解決に大きな期待ができないとしたら、生活がデータ化されることの可能性を、最大限に民主的に（人びとのために）追求したいものだ。

6-3 認知症の表現論
　認知機能障害としての認知症を治療するためには、認知機能を定量的に評価する必要がある。現在の慣用的な診断スコアMMSE（Mini-Mental State Examination）や重症度評価CDR(Clinical Dementia Rating)では病態の全体像を表現しているけれども、言語表現による質問項目のチェックリストでしかなく、測定装置によるリアルタイム計測は困難だ。例えばCDRの地域社会活動項目を地域の監視カメラ画像から判断しようとしても、行動リストを十分に充実しても、行動の意味を臨床医や専門家が全体的な文脈の中で判断する必要がある。認知症は加齢現象と深いかかわりがある慢性疾患であって、毎日の生活を長期間観察し評価する必要がある。加齢現象はヒトの生物学的な生活環の表現型であり、ヒトにとっては直感的に理解できるけれども、その生物学的な機構は複雑で、ほとんど理解できていない。認知症患者の「住まいのデータ」を集積して、例えば女性における骨密度や、男性における筋肉量などの、加齢による医学的な変化と、住環境における行動リストの網羅的な記録の関係を解析すれば、認知機能を定量的に評価することができるかもしれない。住環境における行動リストの網羅的な記録に代わるものとして、脳波における意識状態の記録を考える場合は、身体意識や場所意識に注目すれば網羅的な解析が可能かもしれない。

6-4 生活環の表現論と剰余意味論
　価値とは何かという哲学的な議論ではなく、商品としての労働力を定量的に表現した賃金をもとにして、カール・マルクス（1818～1883年）は剰余価値を議論して、一見価値のない工場労働者の単純作業の中に経済的な価値を見いだした。生活がデータ化される時代では、労働力ではなく、データが剰余価値となる。しかし労働者の生活によって再生産される労働力ではなく、データはAI技術によって分析され、コンピューターで再生産される。AIプログラムの動作状態は、与えられたデータによってアダプティブに変化するため、AIプログラムのアルゴリズムを与えたプログラマーによっても、AIプログラムの動作は完全には予測できないものとなっている。すなわち、データが剰余価値となったとしても、データの意味は不明なままなのだ。生活がデータ化されたとき、生活データの剰余意味論は、意味のなさそうなランダムな生活行動に意味を見いだすだろう。その剰余意味は、日常生活の中のささやかな冒険かもしれないし、心地よい休息かもしれない。近代の機械文明は、人間の自由意志を尊重する文明でもあった。近未来のデータ文明では、AI技術にとって最も苦手な分野、ランダムな生活行動を尊重する文明であってほしい。

予測不能な社会を生きる人びとの「問題発見力」が、倫理的判断の独立性と多様性の根拠となることが「データエチカ」の原点（証明できない公理としての特異点）となる。機械文明のエチカは感覚世界のエチカだった。データの世界は、1秒間に10億回以上（1ギガヘルツ）の測定や演算が行われ、感覚が全く役立たない世界だ。擬人化された独裁者としてのAIの神は、人びとの「生活」を理解することができるのだろうか。AIの神が『オズの魔法使い』であれば、すなわち詐欺師であることを自覚していれば、ランダムな人びとの仲間であり、人びとの「生活」が理解できるはずだ。もちろん神のようにすべてを理解するのではなく、原理的には理解できないことを知りながら、問いを発し続けるという「生活」によって理解する。そして機械文明の延長では解決できない問題群に「データ」とともに立ち向かうこと、哲学的には概念や理念ではなく「所与」に立ち止まることがAIの神に与えられた課題となる。データ文明への移行には1000年かかるかもしれない。人間社会の大きな文明論的な方向転換を明確にして、できるだけ多様に、ゆっくりと変化すること。AIの神は、技術が急速に変化して独占されないように見張るGatekeeperでもある（※参考11）。「データエチカ」は希有（けう）であるとともに困難であるかもしれないけれども、長い中世の後のスピノザのように、突然トンネルの出口を発見してしまう事件もありうる。

「データ論」が少なくとも役に立つことは、難解な哲学書、例えばスピノザの『エチカ』（1677年）、ライプニッツの『モナドロジー』（1714年）、ホワイトヘッドの『過程と実在』（1929年）に、書かれていない「データ」を代入して読むと、意外にすっきりと理解できることだろう。これらの未来志向の哲学者は、彼らの時代には存在せず想像すらできない「データ」を、（神によって）「属性」を与えられた個体としての「所与」として概念的に理解していた。「データ論」が難解だとすると、現状では意味不明なウイルスとの共存・共生・共進化の物語でもあるからだろう。進歩主義的な人間中心の哲学を表とすると、「データ論」はメビウスの輪における裏側のようなもので、データ文明においては、ウイルスも含めた全ての生命が世界の中心となる共進化の哲学が求められている。

次稿は『住まいのデータを回す』シリーズの最終回として、文学部数学科の提案としたい。17世紀に2進法を発明した天才、ライプニッツの哲学について、今は亡き友人と話した宿題が、『データを耕す』シリーズとして完結したとき、ライプニッツは最初のスピノザ主義者として死んでいったことが、その宿題への返答だった。しかしその時点では、ライプニッツの発明した2進法はコンピューターとなり、人類の未来でもあるのだけれども、スピノザは過去の哲学者でしかなかった。『住まいのデータを回す』では、スピノザのエチカにおけるテーゼ「神すなわち自然」を、「データすなわちコンピューターにとっての自然」と読み替えて、スピノザを人類の未来に直結させた。しかし17世紀の哲学と、21世紀の人類では、明らかに異なる未来を生きるしかない。最終回では、筆者が「いま、ここで」（※参考12）最も信頼している哲学者、ゲオルク・ピヒト（1913～82年）の哲学を紹介しながら、認知症を生きる人類にとって、科学と技術を歴史的に折り畳むこと、非線形な方向転換と重層化を行うために、宗教と哲学に加えて数学の異次元が必要であることを提案したい。

参考1：『メタマス!―オメガをめぐる数学の冒険』（グレゴリー・チャイティン、白揚社、2007年）

参考2：『壺とカメレオン―実在と偶然を巡る量子論の新解釈』（アカルディ・ルイジ、牧野書店、2015年）

参考3：『ランダム行列の数理と科学』（渡辺澄夫・永尾太郎・他著、森北出版、2014年）

参考4：『知られざる地下微生物の世界 ―極限環境に生命の起源と地球外生命を探る―』（タリス・オンストット、青土社、2017年）

参考5：水の構造を大型放射光施設Sprint-8で調べるという話
http://www.spring8.or.jp/ja/news_publications/research_highlights/no_54/

参考6：タンパク質水和水
https://www.jps.or.jp/books/jpsjselectframe/2010/files/10-8-1.pdf

参考7：超分子
https://ja.wikipedia.org/wiki/超分子

参考8：関係データベース
https://ja.wikipedia.org/wiki/関係の正規化

参考9：負のエントロピー
『生命とは何か』（エルビン・シュレーディンガー、岩波書店〈岩波文庫〉、2008年）

参考10:社会的共通資本
https://ja.wikipedia.org/wiki/社会的共通資本

参考11：『Life 3.0 – Being human in the age of Artificial Intelligence』（Max Tegmark、Penguin Books、2017）

参考12：『いま、ここで―アウシュヴィッツとヒロシマ以後の哲学的考察』（ゲオルク・ピヒト、法政大学出版局、1986年）

Tags: 住まいのデータを回す

One response so far

インディアンはウソをつかない『みんなで機械学習』第48回 | ニュース屋台村より:

14/10/2024 5:02 AM

[…] https://www.newsyataimura.com/yamaguchi-23/ […]

Reply

Cookie	期間	説明
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

データ論の準備（4）問題設定
『住まいのデータを回す』第21回

山口行治（やまぐち・ゆきはる）

コメントを残すコメントをキャンセル

カレンダー

最近の投稿

最近のコメント

カテゴリー

2026年5月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

データ論の準備（4）問題設定 『住まいのデータを回す』第21回

山口行治（やまぐち・ゆきはる）

コメントを残す コメントをキャンセル

カレンダー

最近の投稿

最近のコメント

カテゴリー

ニュースネットクラウド

データ論の準備（4）問題設定
『住まいのデータを回す』第21回

コメントを残すコメントをキャンセル