SHAPE
『みんなで機械学習』第61回

4月 30日 2025年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o
株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆数学のファンクラブ

位相数学などの抽象数学は、ビジネスの役に立たないと思われていた。おそらく、量子コンピューターが実用化されるまでの、過去の話になるだろう。量子力学はアインシュタインやファインマン(アメリカ、1918~88年)のような、世界最高峰の物理学者にとっても、直感的な理解の範囲を超えている。高度に抽象的な数学を使って、実験結果を説明する理論を構築してきた。量子コンピューターは、論理演算を高速に行う万能計算機ではなく、量子力学的な「実験」を、柔軟な設定で高速に行う実験装置だ。

地球シミュレーターのような、スーパーコンピューターで100年以上かかる計算であっても、データをうまく縮約して、計算方法を工夫すれば、1日以内に計算してしまうかもしれない。ただし、気候シミュレーションのような実用的な問題にチャレンジする前には、素因数分解などの、多くの数学的な基礎研究が必要であることも確かだろう。位相数学もそのような基礎研究に含まれていて、データサイエンスとは相性が良い。

実際に、近刊の数学のポピュラーサイエンス(プロ数学のファンクラブ)では、量子力学と機械学習に言及されていた(『SHAPE-「形」で解き明かす社会の難問』〈ジョーダン・エレンバーグ、丸善出版、2025年〉)。その最後を、空間概念を代数化したアレクサンドル・グロタンディーク(フランスの数学者、1928年~2014年)で締めくくるところが、カッコよい。

実用的な数学は、工学的な応用数学だけではなく、純粋数学のファンクラブによって支えられる場合もある。『SHAPE-「形」で解き明かす社会の難問』のような、数学ファンクラブが、日本にもあった。本シリーズでは『遊びの博物誌』(坂根厳夫、朝日文庫、1977年に初版発行)を紹介した(第58回「データ化学の沃野」、https://www.newsyataimura.com/yamaguchi-140/ )。日本の数学者も、米国のジョーダン・エレンバーグを見習って、数学ファンクラブ活動を盛り上げてもらいたいものだ。

◆データの形

意味の無い形は無い

意味の無い話し言葉があるとすれば、それは病気だろう。話し言葉の場合、少なくとも、感情的な表現がともなう。書き言葉の場合、前提となる知識がともなわないと、意味があることはわかっても、意味がわからないことが多々ある。

大量の数字の羅列でしかないデータの意味は、多分わからない。それでも、データの意味をわかろうとするプロセス(手順)が明快に記述されていれば、ある程度はデータの意味を理解できるようになるかもしれない。特に、データ解析の手順が、事前に定義されていれば、その解析結果を信頼できる。

データを、言語もしくは記号で記述しようとすると、記述が可能であっても意味不明になる。数百ページに及ぶ意味不明なデータにつきあうことは、人びとにとっては苦痛でしかない。パソコンであれば、1秒以下の仕事かもしれないし、少なくとも、パソコンには痛みの感覚はない。

筆者としては、パソコンを数時間考えさせるようなプログラムを作成することが、最高の娯楽だ。薬物動態解析で、7個の変数を含むモデルを作り、数百パターンの変数の組み合わせにおいて、各パターンごとに1000回の合成データによる計算を行うと、ちょうど睡眠時間程度だった。計算結果は、数字の羅列だけではなく、グラフで出力して、直感的にチェックする。計算結果をグラフで可視化すれば、計算結果をチェックするのは、人間だけではなく、AIでも可能になるだろう。データを可視化する技術が、データサイエンス、特にデータマネジメントと探索的データ解析の主要な業務ともいえる。

データを可視化する場合、ある程度の事前の仮説や予測が重要で、薬物動態解析のように、変数(推定したいパラメータ)を含む理論式があると作業効率がとてもよくなる。たとえ理論式が数百パターンあっても、理論式が無い場合の探索的データ解析とは、比較できないほど単純な作業になる。理論式が無ければ、1カ月あっても、データの意味を理解すること、より正確には、データの形と個体差にともなうバラツキ、および測定誤差を区別して可視化すること、は容易ではない。

トポロジカルデータ解析による探索的データ解析

データの形が見えてくれば、データの意味も理解しやすくなる。データの背後にある現象の理論式を仮定しないで、データの形を、幾何学的な特徴によって定量的に評価する方法がトポロジカルデータ解析(TDA)で、機械学習と相性の良い画期的なデータ解析の方法だ。「データ論」の宿題を考えていた時の、偶然の出合いだった(『みんなで機械学習』第52回、https://www.newsyataimura.com/yamaguchi-133/)。

TDAは現代数学のトポロジーが理論的背景にあり、まだ教科書を読了できていない。トポロジーの勉強から再開しているので、時間がかかりそうだ。TDAの教科書は、機械学習を意識して記載されていて、筆者が開発中の、個体差をともなうデータの機械学習、フェノラーニング®に応用できることは確実だけれども、いまだ具体的な方向性が見いだせていない。

教科書には化合物データベースへの応用や、ウイルス進化への応用など、興味深いケーススタディーが紹介されている。日本の中小企業や化学産業の視点から、具体的な応用例を模索したい。

データの形は、大量のデータがある場合にだけ、検討する意味がある。少量のデータでは、データの要約統計量(平均値、分散、最大値、最小値、中央値など)で十分だ。もしくは、大量のデータで、各個体の変数の数が3個以上の場合、変数間の関係が問題となる。

臨床試験では、各患者ごとに100個以上の変数になるけれども、ほとんどの変数が独立で、関係がある(相関がある)変数は、少ない数のグループに分類される。多変量解析といわれる方法において、グループ内の変数は、通常は10変数以下だろう。

トポロジーが教えるところによると、3次元と4次元のトポロジーはとても複雑で、ひもが絡み合ったり(結び目)、穴に方向付けが必要であったり、トポロジーが問題の整理に大いに役立つ。5次元以上の場合は、結び目ができなくて、逆に単純になるらしい。

機械学習では、数千次元のデータや、無限次元データ(スペクトル)も珍しくはない。それでも、個体差を無視する機械学習では、いまだ、難しいトポロジーが問題になった事例を知らない。

筆者の実務経験では、医学データの個体差は、3次元から7次元程度の複雑さなので、ちょうど、トポロジーが問題となる複雑な状況となる。性別のトポロジーは、単純な表裏ではなくて、メビウスの輪のようにつながっていたとしても不思議ではない。女性ホルモンと男性ホルモンの関係には、結び目があるのかもしれない。とても複雑なトポロジーであることは確実だろう。

インターネット上のデータも、SNS(ソーシャル・ネットワーク・システム)のネットワークのように、複雑なトポロジーを作っている。ネットワークトポロジーでは、スケール変換に不変の、スケール則が見いだされる場合もある。いわゆるフラクタル幾何学の模様のようなネットワークであって、組織集団における場所の個体差で注目した。TDAの教科書には、フラクタル幾何学は言及されていない。これからの研究課題なのだろう。

フェノラーニング®を使った探索的データ解析

データ解析では、統計的仮説が明確な検証的データ解析と、仮説(統計的とは限らない)を発見するための探索的データ解析を区別する。科学論文で、統計的有意差(p値)を計算する場合が多いけれども、p値が意味があるのは、検証的データ解析の場合であって、探索的データ解析では、p値では試験結果の再現性すら保証されないので、解析結果を注意深く考察する必要がある。データの品質を「注意深く」検討して、過度の結論とならないように、結論の限界を考察することが望ましい。データの品質を「注意深く」検討するのは、データマネジメントの役割で、統計手法としては、探索的データ解析を用いる。

従来の探索的データ解析は、単純なデータの可視化と、異常値のチェック程度しかできなかった。現在では、データが大量にある場合、機械学習の方法が威力を発揮する。

筆者のように、ほぼ1人で何十年とデータ解析を行い、突然、50人のグループの責任者になった経験では、データ解析の実務において、75%はデータマネジメント業務と思われる。

現在では、データマネジメントとデータ解析はデータサイエンス内の別部門であるため、その両方を実務経験することはほとんどない。データサイエンスの実務では、データマネジメントの品質と業務効率を上げることが最優先課題であり、従来は、データベースシステムの活用が主流だった。

現在では、電子取引のデータなど、データが大量にある場合は、機械学習がデータマネジメントに活用されるようになった。しかし、探索的データ解析において、個体差の取り扱いが体系化されていないので、データマネジメントにおいては個体差が無視されて、大量のデータを使って、データ解析の段階で個体差を探索的に解析する。

この方法は、効率が悪いことは、言うまでもない。個体差が無視できない場合の機械学習がフェノラーニング®で、当初は、探索的データ解析の特殊例として探求していた。この方法が、データサイエンスの実務では、データマネジメントに活用できることに気がついて、その経済的な価値を見直すようになった。

個体差を考慮に入れて、丁寧にデータマネジメントを行う人間の作業を、機械学習で代用できる。結果として、より少ないデータでデータ解析を行い、各個人の未来のデータを、より正確に予測できるようになる。

データの形はデータの意味を表現している

筆者の立場からは、現在の機械学習やAI(人工知能)研究に必要なのは、膨大な予算ではなく、「データ」に関する哲学だ。TDAにはその哲学がある。フェノラーニング®は、TDAと比較できないほど未熟な技術だけれども、その哲学は、互角で相補的だと信じている。

データの形を幾何学的に表現できれば、データの意味を言語で表現できるようになる。意味の無いデータには価値は無いけれども、意味を発見して記述できれば、大きな価値につながるかもしれない。

「データの形」が、近未来の「データ文明」への探索路の一つであって、曼荼羅(マンダラ)のような、西欧文明が想像しなかった「データの形」を、宇宙や生活のデータに発見できれば、天地逆転のルネサンスとなることを期待している。

◆みんなでWATSONX

SASの世界からの旅立ち

拙稿『みんなで機械学習』を書き始めたころは、オープンソースの統計解析ソフト「R」を、みんなで使えるようにしたJASP(https://www.coronasha.co.jp/np/article/7/)、またはその兄弟ソフトJAMOVI(https://bookdown.org/sbtseiji/jamovi_complete_guide/)を紹介して、中小企業の実務に役立つように、データマネジメントと機械学習を自習することを目指していた。

しかし、この短い4年ほどの間に、機械学習は生成AIの簡易版と見なされ、統計解析は古典手法のような時代感覚になって、「R」よりも、Googleが推進するPYTHON(https://ja.wikipedia.org/wiki/Python )が、データサイエンス分野のコンピューター言語として主流となった。

筆者は、半世紀前の新入社員の時代から、統計解析ソフトの最高峰であるSAS(SAS Institute Inc., Cary, NC, USA)の世界に没頭していた。「R」は異文化だったけれども、SASが高額な商用ソフトであり、しかもベイズ統計や機械学習には保守的な立場であったため、「R」の探訪は、それなりの冒険のつもりだった。

PYTHONはGoogleが強力に推進していることもあって、機械学習分野では独走状態になって、深層学習では不可欠のソフトウェアとなった。現在のSASは、PYTHONも実行できるAIフレンドリーな統合ソフトに変身中で、さらに高価になっている。

「R」をベースとするJASP/JAMOVIではない、「みんなで機械学習」するためのソフトを探していて、SPSS(https://www.ibm.com/jp-ja/spss )を再評価してみた。SPSSはSASよりも古典的な統計パッケージ(Statistical Package for the Social Science)で、心理統計や経済統計を得意としていた。

パソコンでも動作するようにして、とても使いやすいのだけれども、ビジネスとしては、IBMに買収されてしまった。IBMとしては、SPSSにモデリングツールを追加して、機械学習やAIのフロントエンド、すなわち、データの準備からプログラムの配布まで、一貫して行う統合ソフトの位置づけとした。

最近では、生成AIの大規模言語モデル(LLM)も実行できるクラウド上のWATSOXの一部分として、SPSSをほぼ無料で提供している。次回以降の記事では、「みんなで機械学習」するために、自分自身でWATSONXを体験する冒険談を連載する計画だ。

WATSONX探訪の実況中継

SPSSをJASP/JAMOVIの代わりに使うことは、1年以上前から計画していた。準備期間が長くなったのは、古典的なSPSSの問題ではなく、IBMのクラウドビジネスにある。

IBMのワトソンは、チェスのチャンピオンを破った伝説のAIプログラムだ。その成功の陰で、IBMはクラウド事業にもAIビジネスにも後れを取ってしまった。SASの置かれた状況と似たものを感じる。しかし、IBMは必死の巻き返しを図っている。IBMは量子コンピューターでは先頭グループにいるので、AIビジネスのバブルを生き延びれば、再度、コンピュータービジネスの勝者となるかもしれない。

IBMのWATSONXは、クラウド事業であり、オープンソースのAI環境であるため、急速に変貌(へんぼう)している。残念ながら、DeepSeekのような、中国産のオープンソースAIは、IBMビジネスとしては提供されないようだ。このままでは、中国産AIビジネスが勝者となるリスク(筆者は50%程度と悲観している)があることを覚悟して、WATSONXを使うしかない。

どのようなリスクであろうと、ナシム・ニコラス・タレブの教えに従って(https://www.newsyataimura.com/yamaguchi-81/ )、反脆弱(はんぜいじゃく)性を頼りに、生き延びよう。タレブの哲学は、筆者の「データ論」の出発時点から、通奏低音(つうそうていおん)として、近未来への希望を支えている。

スモールデータを「種」にしたデータ合成

ビジネス関連のスモールデータであっても、健康関連のスモールデータであっても、最終的には「個体」のデータから、「個体」の未来を予測することが課題になる。「個の医療」という言葉はあるけれども、「個のビジネス」という言葉はない。ビジネスは、個別の責任体制なので、個のビジネスが当たり前、という常識があるのだろう。

現在のフェノラーニング®では、スモールデータにおいて、「個体」の未来を予測するために最適な集団を自動的に分類することしかできない。未来を予測するとはいっても、時系列データにおける個体差を、汎用(はんよう)的にモデル化(理解)できていないからだ。個体差とはいっても、個体間変動と個体内変動(経時変化の個体差)があり、個体間変動と個体内変動が交絡する状態が最も難しい。

難しい問題をモデル化(理解)するためには、大量の「データ」が必要になる。スモールデータから出発したのに、ビックデータが必要になるのでは、本末転倒だ。そこで、薬物動態解析の例で言及したように、合成データの利用を模索することになる。

薬物動態解析では、実際のデータから確率的にデータを標本抽出する、ブートストラップ法という、単純な合成データを1000個ほど作って、解析結果の安定性や信頼性をチェックしている。SASは、ブートストラップ法の考え方を一般化して、合成データという機能を追加し始めた。

筆者は、失敗した臨床試験のデータを再解析して、失敗の原因を発見し、新しい臨床試験を計画する仕事を多数行ってきた。その際に、症例Aと症例Bの中間の症例を、モーフィングの技術(https://ja.wikipedia.org/wiki/モーフィング)を応用して合成した経験がある。

細かい話をすれば、内挿(ないそう)だけではなく、外挿(がいそう)も含めて合成データを作成した。海外の製薬企業からの10年ほど前の委託研究において、独自に開発したデータ合成の技術は社内秘として、新しく発見した失敗の原因を報告したら、とても感謝された。

データ合成では、データを取得する分野ごとの、実務的な経験が不可欠になる。スモールデータを活用して機械学習を試みる中小企業は、データ合成によって、さらに競争優位性を獲得できるだろう。SASやIBMのような、大手IT企業では、データ合成のためのプログラムを提供できても、ビジネスに特化した、きめの細かいチューンアップはできない。

機械脱学習のすすめ

フェノラーニング®は個体差の機械学習として、そのビジネス展開を模索している。しかし、日本で新しい機械学習プログラムを、実用レベルで作成できるとは考えていない。米国、中国、インドのように、大量の優秀なプログラマーが組織的に働く環境に対抗できるはずがない。

しかし、フェノラーニング®のプロトタイプを作って、そのビジネス応用を、ビジネス関連発明として特許出願することであれば、日本の特許環境は世界レベルでも負けてはいない。

ビジネス関連特許の場合、ビジネス領域に精通しているほうが有利だ。フェノラーニング®であれば、比較的少量のデータで機械学習できる。「みんなで機械学習」において、何度も言及したPDCAモデルからCAPDモデルへの、予想モデルを活用したシフトが、ビジネス関連特許の基本骨格となる。

機械学習を活用するビジネスモデルの革新は、経営者の固定概念を打ち破るアンラーニング(脱学習)によって実現される。現在の、個体差を無視する機械学習の固定概念も、アンラーニングする必要がある。

AIが個体差の機械学習をして、個性的な経営者が脱学習する。最終的には消費者や生活者も脱学習する。日本の社会も、筆者自身も、もう若くないから、老化の個体差をビジネスにしながら、ロボットと共に生きることにしよう。

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)

コメント

コメントを残す