п»ї 中間組織のデータサイエンス 『みんなで機械学習』第16回 | ニュース屋台村

中間組織のデータサイエンス
『みんなで機械学習』第16回

2月 20日 2023年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニングのビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆制作ノート

データサイエンスを教える大学が人気だそうだ。経済データや健康データを活用して、現場で問題解決をする人材が不足している。オン・ザ・ジョブ・トレーニングやリスキリングでは、人材の質・量・学習時間が、データニーズの増大に追いつかないのだろう。行政や企業のリーダーたちも、データサイエンスの学習意欲はありそうだ。データサイエンスは金融業界で成功したので、儲かりそうに思えるのかもしれない。しかし、現在のデータサイエンスは、データに関するサイエンス(少なくとも自然科学)ではない。従って、本論考が探求している「データにとっての技術と自然」について、現在のデータサイエンスでは明確な答えはない。現在のデータサイエンスでも、現在の問題の一部は解決できるかもしれないけれども、問題が山積みにされるスピードにはとても追いつけない。「データにとっての技術と自然」を深く思索して、機械(コンピューター)とともに、共生・共進化する未来を実現すること、それが本論考の目標であって、ひとびとの行動が変容するほど、単純で実行可能な、生活レベルで役に立つデータの利活用を見いだしたい。

◆商店や中小企業のデータサイエンス

レコーディングダイエットというダイエット法を、試したことがあるだろうか。体重を記録するだけで、目標体重に近づける。目標体重を設定して、毎日体重を意識することが重要らしい。しかし、そんなに簡単なことで、100人中100人がダイエットできるのであれば、その他のダイエット法は不必要なはずだ。個体差を考慮した、無理のないダイエット法が望ましいことは言うまでもない。しかし、その他のダイエット法で、個体差を考慮した健康データや栄養データを、うまく活用できているとは思えない。経済データにおいても、似たような現状だろう。日銀の物価目標について、現在のデータサイエンスでは、正確な物価予測は期待できない。

ミクロ(個体レベル)とマクロ(統計集団レベル)のデータを、統計理論で橋渡しをするときに、「個体差」を考慮すると、不確定な中間レベルでのデータを取り扱うことになって、通常の統計理論では役立たなくなる。こういった場合の実務としては、機械学習法が成功していて、理論的な背景がわからなくても、膨大な計算をすると、予測性能がとてもよくなる場合がある。データサイエンスには膨大な量のデータが必要だからといって、大企業や政府が有利とは限らない。米国と日本のマクロ経済に個体差があるし、歴史的な特異性がある場合でも、比較はできても差異をデータから理論的に説明することができない。米国と日本の商店や中小企業のデータであれば、比較対象が多数あるため、理論的には有利だ。しかし、商店や中小企業におけるデータの機械学習は、大企業のようには進展していない。

◆中間組織のくりこみ

物理では、くりこみ(Renormalisation)計算が威力を発揮している。歴史的には、朝永振一郎が量子電磁気学で、発散する計算を、計算途中の発散項を差し引くというアイデアで、有限の意味のある計算としたことから始まる。最近では、くりこみ群の理論として、数学的に整備され、物理における応用が広まり、計算科学の有力な武器になっている。小さなグループでの結果をたくさん集めて、より大きなグループでの結果を導くときに、古典的なスケール変換のような線形性を仮定せずに、スケールに依存する部分と依存しない部分に分割して、より詳細なモデルを仮定して計算する手法だ。上述の、ミクロレベルとマクロレベルをつなぐ計算理論となっている。データサイエンスにおいても、テンソルネットワーク(※参考1: 「テンソルネットワークの進展 多彩な表現形式が物理をつなぐ」〈西野友年ほか、サイエンス社、「数理科学」2022年2月号〉)のモデルを使って、くりこみ計算が行われるようになってきた。くりこみ計算は、うまくいく場合とうまくいかない場合があるけれども、集団のスケールに依存する性質について、計算することができるようになったのだから、中間スケールでの集団のデータが、今後ますます重要になることは間違いない。

くりこみ計算を考えると、大きな組織の中の小さな組織のくりこみ、階層的なくりこみのほうが、大きな社会の中の小さな組織のくりこみよりは計算しやすいように思われるかもしれない。しかし、階層的な組織のくりこみ、人事組織は非線形性が強く、外部に公開されるデータも少ないだろう。社会の中の小さな組織の場合は、社会を地域などに階層的に分割すれば、特にメッシュ統計などで分割すれば、経済データや健康データの解析には大いに役立つと思われる。国勢調査のメッシュ統計のように、データを提示するだけではなく、経済活動の変化を予測する場合の、スケール依存性について考えていることに注意してもらいたい。もしくは、健康データにおいて、個体差を表現する性別、年齢以外の社会的な要因を解明することで、患者個人の予後予測が正確になる可能性がある。

◆中間組織のデータにとっての技術と自然

くりこみ群という難しい話題で、横道にそれてしまった。データにとって、一番大切で重要な話題に戻ろう。筆者は1979年版のSAS(SAS Institute Inc.)からSASプログラミングで仕事をしてきた。SASの影響もあり、1次元のデータレコードを、たくさん集めて2次元配列としたデータ行列の計算が、データ解析の基本だと信じていた。特に、データ行列の逆行列を計算することで、多変数の共分散行列が計算できる。データ数が少ない場合や、欠測値がある場合は、逆行列の計算がうまくいかない場合がある。SASはこの難問をうまく解決してくれる。現在では、もっと複雑な混合効果モデルの計算も、数値シミュレーションを応用して計算できるようになった。これらの計算も、データ行列の計算としてイメージできる。最近の機械学習プログラムでは、行列を一般化したテンソルを直接計算している。色付きの画像がテンソルで表現できるため、画像データを統計解析する技術的な要求だった。そこで40年ぶりにテンソル解析の教科書を読んでびっくりした。データをベクトルとして理解すること、そんな単純な基本中の基本が理解できていなかった。データレコードは1次元の配列なので、ベクトルそのものだ。そのベクトルの威力が理解できていなかった。データレコードは、当然のように単位(基底)が定義されている。しかし、数学的には、ベクトルの基底は次元だけ決まれば、明示的に定義する必要はない。円座標への座標変換など、基底を指定しないほうが一般化しやすい場合がある。局所の座標系をうまく使えるからだ。局所座標が活躍するのは、微積分学であって、ベクトルは微積分学を深く理解するための道具だったのだ。もちろん、大学の微積分学や物理で学んだベクトル解析も多少は記憶している。しかし、あまりにも長い間、1次元配列としてのデータベクトルを無意識に使っていたので、2次元配列としてのデータ行列が基本だと勘違いして、ベクトルの威力を理解していなかった。

商店、クリニック、中小企業などの中間組織のデータをベクトルとして再考してみよう。公的な統計とリンクするために、住所をメッシュ統計とすれば、住所が2次元的なベクトルとなる。格子状の離散的な方向ベクトルなので、微分積分も差分などとして離散化する必要がある。中間組織が保有する組織の活動データをベクトルとして理解するためには、それぞれの組織が何を表現していて、その表現空間が何次元なのかということを考える必要がある。たとえデータが100変数であっても、経験的には3から5次元の表現空間で十分だろう。通常の統計では、データ行列の固有値に対応する固有ベクトルの次元と考えている。ある程度以下の固有値は、次元を省略する漸近(ぜんきん)的な性質として、誤差に含めてしまう。筆者の立場では、集団のスケール依存性なども考慮して、より具体的な表現空間をモデル化することが望ましい。いずれにしても、まずはデータのベクトル空間をイメージすることから始めなければならなかった。理論経済学で、ベクトルの威力を理解していたのは、ナッシュ均衡ぐらいだろうか。「データにとっての技術と自然」は、データベクトルを理解することであって、あとは自然に、データ行列とデータテンソルまで行き着くことができるはずだ。

◆組織活動の結果を予測すること、組織活動を表現すること

経済データの場合は、中小企業のデータが、マクロレベルの経済予測にとって大切だということは、直感的に分かりやすい。健康データの場合は、個体差が遺伝子などの個人レベルであれば、組織活動はあまり意味が無いように思われる。しかし、個体差が栄養状態や、治療の選択肢の問題であれば、いわゆる環境因子の場合は、社会的な要因が重要であって、最近の医療では、チーム医療が重要視される根拠ともなっている。病院内のチーム医療、クリニックも含む地域包括医療、国家レベルの医療体制と医療経済といった具合に、組織活動が医療成績に大きな影響を与える。新薬の臨床試験では、被験者への倫理的配慮から、こういった環境因子が最適な状態で試験を行う。日本の医療環境は比較的良好であるため、プラセボ(偽薬)の薬効が、無治療とは大きく異なることを実感している医療関係者は少ない。

中間組織の活動が、何を表現しているのかということは、その組織活動の目的を考えると理解しやすい。しかし、組織活動の結果を予測することと、組織活動が何を表現しているのかということは、単純な関係ではない。組織活動の目的(ゴール)が明確な場合、その目的を達成するための行動基準が数値で表現されているかもしれない。組織によっては、行動基準を公表する場合もある。組織活動の目的が不明瞭なままで、組織の存続が目的となっている場合もあるだろう。組織活動の結果は、目的が達成できる場合もあるし、目的を考えていた時には予測できなかった、トラブルやリスクへの対処が活動結果となるかもしれない。組織活動の結果を予測する場合は、予測が外れる場合の対処についても想定する必要がある。もしくは、組織活動の予測精度を評価して、行動基準を考える。表現の場合は、組織活動の能動的な側面として、組織活動の「場」における波及効果、組織のイメージやブランドも評価の対象になる。表現は、予測を裏切るような意外性によって、個性を強く主張したり、共感しうる仲間意識に訴えたりする場合もあるので、非常に多様な、未来に開かれたものとなる。

経済活動の場合、スケールメリットが得やすく、中小企業の事業目的として、事業規模の拡大が、経済全体としても経済成長が求められる。特に、資本主義経済では、成長する企業や産業分野に、投資が集中する。医療の目的は、老年期を身体機能が衰えてゆくプロセスと考えると単純なようだけれども、長生きすること、または健康寿命の延長だけが要求されているのではないことも明らかだ。単細胞生物の場合、明確な老化が見られないこともあるし、魚類などでは、生殖によって、大量の次世代個体を生産して、老化せずに死んでしまう。老化が顕著なのは、人類と巨木ぐらいだろうか。またしても、老化の生物学的意味に脱線してしまった。本論としては、経済活動や医療活動において、成長だけではなく、成熟や世代交代も、考慮する必要があるので、経済データや医療データの収集や解析においても、単純なスケール依存性以外の側面も重要になることに留意したい。経済データのデータサイエンスや、健康データのデータサイエンスでは、データによる予測と表現が問題となり、個体差を無視することができないため、気体の物理学や統計物理学よりも、液体の化学や化学反応のほうが、理論的な相性が良いだろう。日本の化学産業が、経済データ化学と健康データ化学をリードして、世界の商店、クリニック、中小企業などの中間組織に、未来のデータサイエンスを提供する夢物語は、人類存続のジョーカー(切り札)かもしれない。

植物の新芽 2023年2月8日 筆者撮影

『スモール・ランダムパターンズ・アー・ビューティフル』

1   はじめに; 千個の難題と、千・千・千・千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3      私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス・アンド・テクノロジーへ(前稿)

2.3 データサイエンス・テクノロジー・アンド・アート

日本の政府は、データサイエンスの人材育成が、経済成長の必要条件と位置づけている。現在のデータサイエンスが、金融工学などの、最先端の資本主義経済の成功要因となっているのだから、緊急かつ当然の政策なのだろう。しかし、データサイエンスは、20世紀の覇権国家の政策である科学技術(サイエンス・アンド・テクノロジー)よりも根源的な、人類文明の新しい可能性でもある。人類が、地球規模での環境問題や社会問題を解決できないだけではなく、問題を加速度的に拡大していることが明らかな一方で、コンピューターが人類の知能を超える時代は、すでに始まっている。量子力学のように、アインシュタインですら理解できないけれども、自然科学としては正しい実験結果を予測する理論がある。その量子力学を応用した、古典論理を超えた自然科学の計算機械である、量子コンピューターが実用化されている。その量子コンピューターで、軍事暗号を解読しようというのだから、データサイエンスが科学技術であるかぎり、人類の未来は無いかもしれない。しかし、未来のデータサイエンスには、「スモール・イズ・ビューティフル」に記載された「中間技術」としての可能性がある。ひとびとの生活に直接役立つデータサイエンスは、経済データと健康データのデータサイエンスだろう。ひとびとの生活における消費活動や生活習慣が、より計画的で合理的になるように、商店・クリニック・中小企業などの中間組織(覇権国家や巨大企業と比べて小さい組織)が、データサイエンスを使ったサービスを提供する。そして、地球規模での環境問題や社会問題を、ひとびとの生活のレベルから解決してゆく。そのような未来のデータサイエンスは、最先端の科学技術ではなく、言葉からデータへと、価値や意味の世界から意味以前の世界へと、文明の未到領域を冒険するテクノロジー・アンド・アートとなるだろう。未来のデータサイエンスは、データサイエンス・テクノロジー・アンド・アートだ。

データサイエンス・テクノロジー・アンド・アートは、個体差が重要な意味をもつデータのデータサイエンスであって、データによる予測と表現を、高精度かつコンテンポラリーに行う。高精度かつコンテンポラリー(同時刻)な記録は、データの重要な品質要求でもある。データによる予測は、天気予報と似ていて、予測精度を適切に評価する必要がある。明日の降雨確率は70%といった具合だ。一方で、ガン手術後の5年生存確率が40%といわれても、患者自身にとっては、生きるか死ぬかだけなのだから、ほとんど意味がない。何を予測するのか、予測した結果と予測精度をどのように表現するのか、データサイエンスにおける表現の問題は、情報デザインも含めて、多くの課題がある。最近、技術的な進展が著しいのが、リアルタイム(同時刻)な表現だろう。政府の経済統計のように、1か月ごとの発表ではなく、毎日の経済データを購入できる時代になっている。株式市場のように、機械が売買を行うのであれば、人間には意味のない1ミリ秒以下の瞬時のデータであっても、十分に役に立つ。テクノロジーは、ゲームの勝敗のように単純な基準がある場合、意味や価値とは無関係に、前進し続ける。生物種の進化において、無意味な競争が袋小路となって、種が絶滅する場合もある。データテクノロジーの進化も、突然絶滅するリスクがある。データテクノロジーよりも原初的な、データアートに近いのは、データマネジメントだろう。データマネジメントは、データの収集・管理に関連する業務分野で、一時代前までは、データベースの作成と品質管理の業務だった。最近では、リアルタイムにデータが収集され、データの品質よりも量とスピードで、勝負する時代になった。一方で、個人情報の保護や、データ公開の要求、機械学習を行う学習用データにおける倫理性の判断など、データマネジメント以前の段階で、データに関する政治・社会的な議論が、ひとびとの理解やコンセンサスとは無関係に進展して、突然制度化されて、データマネジメント業務の一部となる。データサイエンス・テクノロジー・アンド・アートを、もっと見通しのよい高台から眺めて、1000年後の未来に役立つようにするにはどうしたらよいのだろうか。

恐竜が大絶滅した時に、鳥類は小型化して、空に新天地を求めた。人類の祖先であるネズミのような哺乳動物は、やはり小型化して、地中で生き抜いた。未来のデータサイエンス・テクノロジー・アンド・アートも、小型化して、新天地を求めたい。大学で大企業のためのデータサイエンスを教えるのではなく、小学生が自発的に課題を発見して、楽しみながら生活の役に立てる、データアートの教材を、どのようにして作ったらよいのだろうか。まずは自分たち自身が、未来のデータサイエンス・テクノロジー・アンド・アートの「かけら」を作ってみて、子供たちと一緒に、たくさんの「かけら」を組み合わせて、面白そうな工作を楽しんでみよう。ロボットの世界では、そのような試みが、すでに始まっている。データサイエンスにおいても、例えば近所の国勢調査データと、天気予報を組み合わせて、何か(例えば交通量や野菜の消費量)をリアルタイムに予測するモデルが作れたら、そのモデルが地域によって違ってくるので、地域の組み合わせで、仮想的な流通のモデルを作るといった具合だ。子供たちに与える「かけら」を作るのは、地域の商店や中小企業がふさわしい。しかし、「かけら」を作る道具は、現在のデータサイエンスを批判的に研究して(その限界を明確にするという意味)、全く新しい未来を構想する発明家の集団(データサイエンスの職人たち)が作ることになる。筆者としては、特許制度に精通した、日本の化学会社の研究部門に期待している。未来の化学産業は、化学反応で物質を作るだけではなく、社会や市場の化学反応を研究して、経済データや健康データを取り扱うデータサイエンスの道具を作る仕事も行う。ひとびとに化学反応をもたらして、物質と社会が好循環する未来へのステップだ。

日本の化学産業を、未来のデータサイエンスの起爆剤(道具つくり職人)に見立てるのは、筆者のキャリアからの我田引水でしかない。しかし、それなりの理由もある。
(1)化学産業は環境問題の当事者であり、環境評価技術の蓄積がある
(2)グローバルな産業構造の変化によって、国内化学産業としての未来展望を失っている
(3)エネルギー化学からファインケミストリーまで、幅広い知的財産権の経験がある
(4)化学反応は自由エネルギーの理論であるため、社会現象や生命現象に応用しやすい
(5)コンピューターケミストリーの経験から、計算科学への理解がある
(6)化学産業は素材産業であって、道具つくりとの相性が良い
(7)医薬品産業の母体であり、分析化学による健康データに強みがある
(8)量子化学やNMR(核磁気共鳴分析)など、量子力学の産業応用をリードしてきた
(9)環境評価としての網羅的化学分析を、経済オルタナティブデータとして利用する
(10)機械学習やAI(人工知能)技術の応用課題について、化学産業独自のイニシアティブが無い
おそらく、最大のハードルはスピード感であって、日本の化学産業は動きが遅い。ゆっくり仕事をしても、特許性のある成果物、新しいデータサイエンスの「かけら」、を出し続けられるように工夫する必要がある。小学校高学年から使える、新しいデータサイエンスの道具箱を作る実務的な作戦、その作戦には多少の投資が必要で、少子高齢化する、金持ち日本の蓄財を使う好機になるはずだ。

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトOrangeでみんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、Orangeにフェノラーニングを実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す