山口行治(やまぐち・ゆきはる)
株式会社ふぇの代表取締役。独自に考案した個体差の機械学習法、フェノラーニング®のビジネス展開を、栃木県那須町で模索中。元PGRD (Pfizer Global R&D) Clinical Technologies, Director。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。趣味は農作業。
1.2 地域のデータをおいしくする
「データ」を和訳すると、所与または与件という哲学用語になってしまう。カタカナのデータよりもわかりにくい。そもそも、データとは何か、わかっているようでわからない。
データと情報は似ているように見える。生データをおいしく料理したら、言葉で理解できる情報になるけれども、情報をデータにするためには、情報の信頼性を確認する必要がある。
データに関する難しい話は、専門家に任せておこう。本論では、データに関する聞いたことがない話、もしうまくいったら、中小企業でも役立つかもしれないアイデアなど、気楽に楽しめるような話をしたい。
本論では、個体差があるデータについて考えている。個体差があるデータとしては、個人の身体のデータが代表的だ。しかし、その生データは、個人情報として厳格に保護される必要がある。個人データにおける「場所性」および「地域性」は、個体差の重要な要因だけれども、社会的な問題であって、とても厄介だ。
そこで、個人の身体データの個体差ではなく、地域データの個体差の問題を考えることから始めたい。例えば、多くの地域で人口が減少しているのに、人口が増加している地域がある場合、それは地域データの個体差と考えられるだろう。その原因を考えるのは、社会学や政策論議であって、難しい問題になる。
本論では地域データの個体差を発見したり整理したりすることにとどめて、原因の解析は行わない。地域データを、おいしく調理することに集中して、食べ過ぎた時の問題は考えないことにする。残念ながら、現状の地域データは、生データとしては、あまりおいしくないので、食べ過ぎる心配は無用だ。
- フェノじいの雑談:フィジカルAIは軍事技術
米国や中国など、AI(人工知能)ビジネスは過熱していて、2026年はフィジカルAI ※NVIDIAによる解説)が話題の中心になっている。日本政府も、フィジカルAIの開発競争に参入しようとしている。フィジカルAIは、産業用ロボットに生成AIを応用すること、自動車の自動運転の応用範囲を広げること、工場内での仮想化技術に生成AIを応用することなど、個別に開発されてきた技術を生成AIによって統合することで、次世代の産業技術の基盤技術となることが期待されている。
フィジカルAIに期待する企業、学者の説明は、多分、本当だろう。しかし、政府の戦略では、本当のことが隠されている。フィジカルAIで加速されるのは、戦闘用ドローンの開発であり、フィジカルAIで、戦場における軍事作戦が、空間的に統合されて、多数のドローンやロボットの自律的軍事活動が、飛躍的に高度化される。フィジカルAIの開発に必要な実戦データは、戦場だ。戦場では、安全性を軽視した試行錯誤が可能で、フィジカルAIのモデルを構築するために必要な、大量で良質のデータを迅速に収集できる。
米国は、2026年にフィジカルAIを推進するために、戦場を拡大して、戦闘用ドローンのデータを積極的に集積するだろう。中国も負けてはいられない。欧州は、ウクライナのデータに期待しているに違いない。日本が、フィジカルAIの実測データ収集を、生産現場で行うのであれば、戦場でのデータ収集に勝ち目があるとは思えない。少なくとも、スピード勝負は無理だ。
フェノじいは、日本のAI戦略として、ケミカルAIを提案したい。ケミカルAIは、少量のおいしいデータがあれば、化学的シミュレーションでデータ量を100倍にできる。タンパク質の化学的シミュレーションは、ノーベル賞になり、すでに実用化されている。筆者が興味があるのは、代謝の化学的シミュレーションだ。物理法則は普遍的なので、物理的シミュレーションはデータ量の競争になる。一方で、化学反応は多様であるため、化学的シミュレーションは用途に応じて工夫次第で、広範囲の産業応用が期待される。
- フェナの学習ノート
前稿では、ナシーム・ニコラス・タレブの『「反脆弱性」不確実な世界を生き延びる唯一の考え方』(ダイヤモンド社、2017年)が紹介されていた。フェナも読んでみたけれども、株のトレーダーの話で、難しすぎるわけ。大地震の津波に備えるためには、頑丈な堤防を造るよりも、日頃の避難訓練のほうが大切という、フェノじいの解説は、半分わかったような気がしたけど……。
フェナとしては、逃げるが勝ちということかしら。だれと戦っても、勝ち目はないのだし。バック・トゥ・ザ・フューチャーのまねをして、エスケープ・トゥ・ザ・フューチャーというと、カッコいいじゃない。
パソコンにEscキーがあるように、冷蔵庫やテレビ、お風呂にもEscボタンをつけたらどうなるかしら。家電にAI機能をつけて、難しい「反脆弱(ぜいじゃく)性」を、Escボタンひとつで、家電に引き受けてもらいたいものだわ。
フェノじいに話してみたら、「リスク回避的適応」とか、やはり難しい言葉にしてしまったのよ。AIで未来を予測しても、それが何の役に立つのかわからないでしょ。たぶん、お金儲(もう)けのAIは、あまり生活の役には立たないの。便利な新製品というだけでは、あまりカッコよくないのにね。それよりも、やばいことになりそうな時に、AI家電さんがサポートモードになるのがEscボタンの役割というわけ。フェノじいは、半分わかったような顔をしていた。あとの半分は、エスケープ・トゥ・ザ・フューチャーとしましょう。
◆場所の個体差を「位相」としてとらえる
前稿では、場所の個体差に関する仮説(プログラム可能なモデル)を探しているということを記載した。「局所的だけれどもくりこみが可能で、統計力学の揺動散逸定理、またはランジュバン方程式をモデルとするデータによって表現されている」という仮説は、現段階では意味不明で、これから試行錯誤する課題として提示した。
しかし、このように意味不明な仮説では、思考実験もできない。「場所」という抽象的な概念ではなく、その一例としての地域データとして考えてみよう。
「局所的だけれどもくりこみが可能」ということは、ある程度のスケール変換が可能ということを意味している。市町村の行政データであれば、都府県レベルや国家レベルの行政データに変換が可能ということを意味している。行政単位での集計としては意味があるし、地域の個体差としては常識的な発想だ。しかし、常識的な方法では、地域データに差異があることはわかっても、データが少なすぎて、シミュレーションや機械学習を行うモデルは作れない。
国勢調査のメッシュ統計のような、もっと詳細な空間統計が可能で、空間的に意味のあるスケール変換ができるデータを使って、地域の個体差をモデル化してみたい。店舗や工場の立地条件を分析する方法を出発点にしてみよう。
地域データにおいて、その地域の個体差を表現する要因(変数)を発見しようとしている。その変数が、ミクロに見てゆらいでいる場合に、その地域のマクロな変数が、ミクロな変数からどのように説明できるのか、ということが揺動散逸定理になる。
地域データのミクロな変数としては、現代の商圏分析では、人流データがよく用いられる。しかし、人流データは高価で、時代の変化に大きな影響を受けるので、本論では入手が容易なデータを工夫したい。統計力学におけるマクロな変数としては、「温度」に比例する変数が用いられる。地域データの場合は、人口及び人口の年齢構成が地域の「温度」に相当すると仮定することから始める。
上記のように、地域データの場合は、ある程度、仮説の解釈が可能になる。フェノラーニング®の独創的な部分は、個体差の特徴量(変数)のデータを直接用いるのではなく、その特徴量を推定できる、機械的に測定可能な網羅的なデータ(スペクトルデータ)を使って、個体差のモデルを機械学習で構成することにある。
患者の音声データから性別や年齢を推定して、その推定プロセスにおいて、個体差のモデルを構成する。そうして、患者の音声データからパーキンソン病の早期診断を試みた、20年前のデータ解析の実務経験が、フェノラーニング®の出発点になっている。
6か月ほど、わけのわからない音声データと格闘して、不十分な結果しか得られなかった。フェノラーニング®では、機械的に測定可能な網羅的なデータ(スペクトルデータ)の取得が、工夫のしどころとなる。音声データでは、母音のリアプノフ指数や、ボイス・オンセット・タイム(BOT)を自動的に抽出するプログラムの作成が最大の難関だった。
地域データの場合、人工衛星からの地球観測データを使うことが想定されるけれども、もっと地域に密着した、化学的なデータも興味深い。いずれにしても、複雑に変動するデータを、時間と空間で構成される位相空間で表現して、特にデータの位相変化に注目することがポイントになる。これも音声データから学んだことで、個体差はデータの位相に表現される傾向があるらしい。次稿でも継続して考えてみたい。
◆データの時代
わたしたちの近未来は、私やあなたの生活の延長上にはないかもしれないけれども、私やあなたの生活に大きな影響を与えうる。「データの時代」における個体差の機械学習は、わたしたちの近未来を不可逆的に変革するだろう。
現時点でのビッグデータの機械学習は、個人の購買履歴から商品をレコメンドするサービスなどのビジネス応用で普及してきた。将棋のプロ棋士は、AIプログラムが予測する最善手は想定していても、現実の対戦相手の個性や心理状態なども判断しながら、必ずしも最善手ではない勝負手を選択する場合があるらしい。将棋のAIプログラムは、対戦相手の個体差を理解する段階には至っていないので、勝率がよくても面白くはない。
それでも、個人の個体差であれば、近未来に機械学習が可能になり、多くのビジネス応用が実現されるはずだ。「ビッグデータ」の専門家やサービスを提供する企業は、利益を追求するだけで、AIビジネスの社会的な影響について、責任ある判断ができるとは思えない。わたしたちがわたしたち自身の「スモールデータ」を使って試行錯誤してみよう。「スモールデータ」による個体差の機械学習が可能になるときに、決定的に重要な課題は、地域データの個体差を学習して、社会的な課題の解決案を探索することであって、わたしたち自身の近未来への希望を見いだすことだ。社会的な課題が解決する必要はない。社会的な課題に関連する社会的リスクを身軽に回避できれば十分だ。
◆有向順位付ネットワークグラフ
「場所」に個体差があるということは、別の個体が同じ場所の同じ属性を持つことができないという意味で、個体差がある「場所」には必ず順位や順番が伴う。「場所」は航空路線の有向グラフのような、ネットワークとして表現できる。国家の場所は、国境を接する首都のネットワークとして表現できて、微妙な国際関係を考慮すれば、依存関係などの有向グラフになるだろう。企業ネットワークの場合はもっと複雑で、業界内相関図のような表現や、資本関係の表現など、様々な事業の「場所」の表現がありうる。
地域データのネットワークも、依存関係などの有向グラフに順位をつけたネットワークで表現できる。近隣地域の場合は、双方向の無向グラフとなるだろう。ネットワークグラフに順位がついていることが重要で、4番目までのグラフとか、3番目までのグラフといった具合に、グラフがバラバラになる直前まで、試行錯誤して、予想外の関係を発見する実験が可能になる。
ネットワークグラフを作成する実験を、医薬品の臨床試験の登録データベースを使って行い、ドラッグ・リポジショニング(既存の医薬品を新規な適応症で開発すること)に応用する特許を出願した経験がある(特願2010-021550)。15年前の当時は、機械学習ではなく、旧来の統計手法をMathematicaのプログラムで何時間も計算して、一つのネットワークグラフを作成していたので、かなり手間のかかる実験だった。臨床試験の良いアイデアが見つかったとしても、臨床試験を実施するのには膨大な開発費用が必要であるため、臨床試験そのものを工夫する必要があった。薬効の個体差をモデル化してシミュレーションを行うことを考えて、フェノラーニング®の開発に至っている。
◆組織の個体差は『おいしいデータの家庭料理』の次シリーズとする
以前のデータ論「スモール・ランダムパターンズ・アー・ビューティフル」では、組織の個体差について考えた部分が多い。中小企業の経営に、個体差の機械学習を応用することがデータ論の目的だった。組織の個体差では、組織構造に由来するスケール変換(くりこみ)が複雑な要因となる。
今回のデータ論は、以前のデータ論を推敲(すいこう)して、わかりやすく実施可能にすることを目指している。そのため、容易に入手できる地域データの個体差を機械学習する課題から始めている。しかし、中小企業の経営に、個体差の機械学習を応用することが、私自身のデータ論の目的であることに変わりはない。『おいしいデータの家庭料理』を書き進めながら、組織の個体差については、別シリーズで再挑戦したい。
◆地球規模での経済合理性と地域データ
経済的な観点において、地域データをくりこむ最大のスケールは、地球だろう。日本の経済学者、宇沢弘文が唱えた社会的共通資本としての地球観測データについて考えてみたい。
社会的共通資本は、経済学の立場からの考察であるため、抽象的な概念だ。近代以降、地球を席巻した市場経済は、抽象的概念であっても、人口の集中と移動という意味で、都市の生活を支える「いちば」は実在する個別的な存在だ。社会的共通資本としての自然環境、社会的インフラ、社会制度は、市場経済の外側にあって、しかし経済学的な「財」として、合理的に管理運営され、市場経済の経済合理性を担保するものと想定されていた。
市場経済を合理的経済人(ホモ・エコノミクス)の自己利益の追及に放任することの危険性は、アダム・スミスが考えたように、人びとの信頼関係や社会常識では対処しきれないために、人類の未来が危うくなっている。したがって、経済合理性を、市場経済の外部である社会的共通資本も含めて考えたことは、大いに評価できるとしても、社会的共通資本の動学を経済モデルで説明しようとしたことには無理がある。
公開された地球観測データを公共財として、地域経済の経済分析に活用すること、すなわち、地球規模での、経済活動の地域的な個体差を機械学習することで、地球観測データが、データの時代の社会的共通資本となると想定している。宇沢のように、社会的共通資本を管理運営するのではなく、市場経済が作り出す社会的共通資本のリスクを予測して、回避するだけで十分だ。
地域データによる地域経済の経済分析を、社会的共通資本とすることは、地域のデータをおいしくする一例になる。地域のデータをおいしくする方法は、組織の個体差まで考えれば、もっとたくさんあるはずだ。
- フェノじいの寝言
データとは何か、どこから来て、どこに行くのか、昼寝をしながら考えていた。万能計算機(コンピューター)の夢をみたのは、17世紀の大天才、ゴットフリート・ライプニッツ(1646~1716年)が初めてだった。ライプニッツは、個体差について深い思索を行った哲学者でもある。しかし、ライプニッツが「データ」とは何か、データの未来を考えていたとは思えない。自然や社会は合理的であり、決定論的な法則によって、理解が可能だと考えていたので、データは法則を導くための道具でしかなかった。
データが観察記録だけではなく、コンピュータープログラムの一部になったのは、もちろんコンピューターができた後のことだ。しかし、言語の枠を超えて、数学の道具として、実用的な意味でのデータの未来を垣間見たと思われる天才達はいた。筆者としては、フランスの哲学者、オーギュスト・コント(1798~1857年)と米国の哲学者、チャールズ・サンダース・パース(1839~1914年)に注目している。ともに数学者でもあり、博学(ポリマス)で、経済的には恵まれなかった哲学者だ。そして、両者ともに、経済学を創始した英国スコットランドのアダム・スミス(1723~90年)を強く意識している。一方で、安易な数学的記述を競った時流の経済学には批判的だった。
コントとパースは、彼らの数学的な才能のために、数学嫌いな、現代の哲学者の理解が及ばない部分が多いと思われる。コントの哲学を最も深い部分で理解して、乗り越えようとしたのはパースだった。一般に、コント哲学の批判的継承者は、英国の哲学者、ハーバート・スペンサー(1820~1903年)と言われている。しかし、フェノじいは、スペンサーの哲学に、データの未来を見いだすことができない。パースは記号学として、コントの実証哲学を、発見的かつ体系的に乗り越えている。
コントの数理哲学は、実証哲学講義の第一部として記載されているはずだけれども、日本ではその翻訳は出版されていない。英語版で探している段階だ。コントの数理哲学はパースが批判的に検討しているので、たぶん、パース経由でコントの数理哲学を学ぶことができるだろう。
コントの数学は、当時のフランス(すなわち世界全体でも)数学者の最高峰であるジョセフ・フーリエが、コントの講義の熱心な聴衆であったこと、コントは数学の家庭教師として生計を立てていたことなどから、数学専門家としても高いレベルにあったことは確かだ。フーリエ変換は、熱伝導方程式を解く工学的な応用だけではなく、関数解析(工学的にはスペクトル解析)や超関数論として、量子力学の数学的基礎となった。さらに、高速フーリエ変換のアルゴリズムにより、計算機統計学や機械学習にも活用されている。
コントは、関数解析的な発想で、社会経済現象の数学的解明を目指していたと思われる。当時では、フーリエには理解できても、経済学者や哲学者では、絵空事にしか聞こえなかっただろう。関数解析としての法則性を観察する場合は、スペクトル変換が可能な「データ」をイメージしていたとしても不思議ではない……。
【目次案】「おいしいデータの家庭料理」
1 はじめに; データをおいしくする家庭料理
1.1 おいしいデータは栄養たっぷり
1.2 地域のデータをおいしくする<本稿>
1.3 データの学習と食事
2 データの料理法
2.1 生データのしたごしらえ
2.2 データは発酵するのか
2.3 データの調理器具
2.4 データの献立表
2.5 データのフルコース
2.6 おいしいデータは、地域と人びとを健康にする
3 機械学習の学習
3.1 データをおいしく下処理してから機械学習する
3.2 機械と一緒にデータを学習する
3.3 機械と一緒にデータを使うビジネスを考える
3.4 楽しくデータの学習をする
3.5 データの学習は冒険でもある
3.6 機械と一緒にデータを使うビジネスの冒険をする
4 まばらでゆらぐデータの家庭料理
4.1 まばらでゆらぐ生活と経済のデータ
4.2 生活と経済を豊かにするデータの家庭料理
4.3 まばらでゆらぐデータの調理法
4.4 まばらでゆらぐデータで健康になる
4.5 データを使った生活と経済の予測
4.6 生活と経済のリスクを生き延びる
4.7 たくさんの小さな試行錯誤による適応
5 よりあいグループと社会
5.1 よりあいグループ(地域や家族)のデータ
5.2 よりあいグループのよりあいグループ
5.3 機械と学習するよりあいグループのデータ
5.4 よりあいグループのデータは廻る
5.5 よりあいグループのデータの周辺
5.6 よりあいグループのデータを予測する
5.7 よりあいグループのデータで社会問題を解決する
6 おわりに;生活と社会の近未来
6.1 ほとんど色即是空・空即是色な(まばらでゆらぐ)世界
6.2 まばらでゆらぐ人びとの地域社会
6.3 データでつながる、地域のNPOから国際NGO連合まで
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました。











コメントを残す