データの学習と食事
『おいしいデータの家庭料理』第4回

2月 04日 2026年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

株式会社ふぇの代表取締役。独自に考案した個体差の機械学習法、フェノラーニング®のビジネス展開を、栃木県那須町で模索中。元PGRD (Pfizer Global R&D) Clinical Technologies, Director。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。趣味は農作業。

1.3 データの学習と食事

今回のデータ論は、以前連載したデータ論「スモール・ランダムパターンズ・アー・ビューティフル」を推敲(すいこう)して、わかりやすく実施可能にすることを目指している。データとしては地域データに限定して、地域データの個体差を「スモール・ランダムパターンズ」として機械学習することから始める計画だ。

「スモール・ランダムパターンズ・アー・ビューティフル」の到達地点からふり返って、より現実的で悲観的な目標に前進しようとしている。AI(人工知能)ビジネスの現状が、悲観的なものであったとしても、近未来への希望を失わないようにして、先回りするという作戦は同じだ。

地域データを題材とするので、社会および経済の課題を再考している。身体の個体差、すなわち健康の課題や、組織の個体差、すなわち中小企業の経営の課題は、筆者自身のビジネスに直結する。多少は実践経験があり、日々の興味の対象ではあっても、深入りしすぎたり、脱線したりする傾向があるので、別シリーズとしよう。

データ論としては、データそのものの課題、例えば、データ解析を行う前段階のデータマネジメントを重要視している。個体差の機械学習、フェノラーニング®は、スモールデータを使った、データのシミュレーションと探索的データモデリングの技術であるため、技術としてはデータ解析の仲間だ。しかし、データの個体差は、データの外れ値や欠測値と見分けにくい場合が多い。実務としても、品質管理されたデータ(データベースに集積されたデータなどの実務的な意味で、品質の良いデータという意味ではない)を解析した経験が大半で、データベースを作成するデータマネジメント業務の重要性をよく理解しているつもりだ。

筆者が、機械学習、特にディープラーニング(深層学習)に興味を持ったのは、ディープラーニングはデータをデータモデルと融合して、データマネジメントを手際よく自動化していることに気がついたことにある。ディープラーニングによって大成功した大規模言語モデル(LLM)では、データモデルのパラメーター数は数兆(10の12乗)個に達している。その巨大なモデルの中に、言語データが縮約されて格納されていると考えることができる。

言語以外のデータであっても、例えば画像や音楽では、ディープラーニングが、従来のデータ解析を大幅に上回る性能を示している。しかし視覚や聴覚以外のデータでは、測定データの数値の意味が直感的に理解できなくて、教師データを作りにくいことに加えて、大量のデータを集積することも困難だ。ディープラーニングといえども、万能ではない。

現状で、安価に入手できるデータ(公共データなど)、もしくは中小企業や個人が保有するデータは、スモールデータでしかない。しかし、データに表現された個体差を適切にモデル化して、データを増殖できれば、機械学習の解析方法を応用できる。こういったフェノラーニング®の基本的な考え方を、実施可能な形にすることを、「おいしいデータの家庭料理」としてまとめようとしている。

今回は、「おいしいデータの家庭料理」の「はじめに」のまとめとして、データの学習と食事がよく似ていることを説明してみたい。

  • フェニイのフォローアップ

フェノじいの話は、すぐに哲学に脱線して、わかりにくいデータの話が、もっとわかりにくくなってしまうのだ。フェノじいとしては、何十年も考えていることなので、話が多少長くなっても気にしないけど、忙しい若者にはバッテン。

要するに何が言いたいのか。17世紀の数学者で哲学者でもあるドイツのゴットフリート・ライプニッツ(1646~1716年)と、18世紀フランスの哲学者で数学家庭教師のオーギュスト・コント(1798~1857年)が、データについて考えていたのではないか、という憶測を、歴史上の大発見のように話しているだけ。

ライプニッツとコントは、だいぶ昔の人で、あまり有名ではないよね。図書館で偶然見つけたのだけれど、この2人の天才に注目している米山優(敬称略)という日本人哲学者がいる。この先生の以下の参考書のほうが、フェノじいの話よりも、よっぽど役立つので、紹介しておくぜ。オシマイ。

『つながりの哲学的思考―自分の頭で考えるためのレッスン』(ちくま新書1700、2022年)

『情報学の展開―情報文化研究への視座』(昭和堂、2011年)

  • フェナの学習ノート

フェニイは図書館が好きなの。フェノじいの影響かな。でも、散歩をしていると、いろんな家庭やレストランの匂いがするでしょ。図書館は、本の匂いだけで退屈になってしまう。アルパカは草原で暮らしているので、風の匂いには敏感なの。おいしそうな匂いとか、危険な匂いとか。眼では見えない、耳では聞こえない、遠くのことがよくわかるでしょ。

フェノじいは、スペクトルとか、難しいことを言っていたので調べてみたら、音や光のことばかりで、匂いや味のスペクトルは、よくわかっていないみたい。味覚をスペクトル分解できたとしても、おいしいかどうかまでは、わからないのだから、フェノじいの話は、大切なことが抜けているのよね。口コミやランキングもあてにならないし、まあ、期待値を下げて、料理の勉強でもしましょ。おいしい料理を食べないと、おいしいかどうか、わからないじゃない。

料理を始めるには、おいしい食材を集めて、調味料をそろえて、鍋やフライパン、オーブン、電子レンジ、魚焼き、などなど、準備が大変なのよね。お料理教室はどうかしら。まあ、おなかをすかせて、おいしく食べれば、なんでもいいかも。

データを食べ過ぎてはいけない
フェナ:データを食べ過ぎるって、電気を食べ過ぎるAIのデータセンターのことかしら。
フェノじい:じいは、50年間データを食べてきた。昔は、データが高価だったので、必要最小限にする努力をしたものだ。でも、お金持ちのお医者さんたちは、患者さんからたくさんのデータを集めたがる。何かの役に立つだろうと思っているのだけれども、たいていはその逆で、データの品質管理のお荷物になる。AIデータセンターも、電力を確保するために、原子力発電が必要になるありさまだ。AIをもっとうまく使って、電力需要を削減する知恵はないものか。AIに知恵がないのは仕方がないとして、AIを使うビジネスに知恵がないのは、地球の未来を破壊する社会問題だ。
フェナ:いまのAIサービスは、食べ放題のバイキングのようなものね。
フェノじい:バーゲンセールや、タイムサービスかもしれない。競争を煽(あお)って、必要以上に食べたり飲んだりさせる。データを、おいしく食べるのには、食べる前からの作戦が大切だ。食べ始めると、止まらなくなるからね。
 
おいしく食べて学習する
フェニイ:生物は食べないと生きていけないよね。アルパカは、おいしい草を食べている。草は、いろいろな栄養素を食べて、からだを再生しているじゃない。
フェノじい:食べているだけでは、生きていけるとは限らないぞ。状況によっては、環境の変化に適応する必要がある。いつ、どこに、おいしい草があるのか、賢いアルパカは知っている。草は、種子をアルパカに運んでもらう場合もあるし、種子を風にばらまいてもらう場合もある。単細胞生物も含めて、細胞は、おいしい栄養素だけではなく、危険なシグナルも、食べて分解して、対処する能力がある。生きるために、学習し続けている。
フェニイ:弱肉強食ってよくいうけれど、食べられてしまう弱者は、勉強が苦手だったのかな。
フェノじい:動物以外では、食べられることで繫栄している生物もたくさんある。食べるだけで学習しない強い動物は、絶滅するのも早い。データを食べて、消化、学習できるようになれば、ウイルスにも負けないだろう。
 
おなかをすかせる
フェナ:おなかがすいていたら、たいていの料理はおいしいでしょ。データを食べるときには、どのようにして、おなかをすかせるのかしら。
フェノじい:データは頭で食べるから、頭を空っぽにするということ。いろいろな仮説があっても、いったんすべて忘れたことにする。忘れるというのは、とても大変なことで、時間がかかる。データを収集する前に、十分に時間をかけて準備する。そうすると、不思議に邪心が無くなって、すがすがしく、頭を空っぽにできる。
フェニイ:俺なんかは、いつでもおなかがすいているな。フェノじいみたいに宗教的にならなくても、勢いというものがあるだろう。
フェノじい:確かに、データにも勢いがあって、できたてのデータは、新鮮でおいしい。新鮮でおいしいデータと、熟しておいしくなるデータと、いろいろだな。
 
いろいろなものを食べる
フェナ:それって、いろいろなものを食べるほうが良いっていうことかしら。のんびり草原で暮らすときには、いつも同じものを食べていたけど。
フェニイ:いろいろな場所で生活する渡り鳥は、いろいろなものを食べている。
フェノじい:いろいろなデータを食べて学習するときには、渡り鳥の気持ちに近いかも。全体の地形を俯瞰(ふかん)して、安全でおいしそうな場所を探す。自分が、生まれ育った場所が第一候補だけれども、怪しい時には、似た場所を探す。
フェニイ:データを食べるときには、好きなデータだけを食べるのではなくて、いろいろなデータを食べて、怪しいデータに気づくということか。
フェノじい:完璧なデータなんてありえないので、怪しいデータに、秘密が潜んでいる場合がよくある。このデータ、何か変だぞという感覚、それは生データを食べてみないとわからない。きれいに集計されてしまうと、美人に騙(だま)されてしまう。厚化粧のデータは嫌いだといった昭和の先生がいたけれども、それは好き好きでしょう。夜のデータにも、それなりの役割はあるのだし。
 
素材の味が一番
フェナ:フェノじいも、たまには洒落(しゃれ)たことを言うじゃない。昭和の先生と同じ仲間だと思っていた。
フェノじい:データの仕事では、立場が違うと、同じデータでも、発言が異なってくる。おいしいとか、おいしくないとか。それは、日本の医薬品規制における、夜明け前のデータだった。立場は違っても、データを介して、お互いの気持ちはわかるので、言葉だけで対立することはない。だから、厚化粧なんて言い方をしたのだと思う。
フェニイ:そんな昔の話ではなくて、近未来の話をしてもらえないかな。
フェノじい:いまが、まさに夜明け前だと言いたいのだぞ。しかも、いつ明けるかわからない、近未来から見た中世の真夜中だ。
フェナ:料理の話に戻りましょうよ。いろいろなものを食べるのは良いとして、おいしくなければ食べたくはないわ。おいしいデータの見分け方なんてあるのかしら。
フェノじい:多分ないだろう。フェナがおいしいと思う料理と、フェニイがおいしいと思う料理、フェノじいがおいしいと思う料理は、みんな違うよね。それぞれの年齢や性別、健康状態、さらには幼児体験によっても、おいしいと思う料理は、多分みんな違うだろう。おいしいデータも、データの使用目的によって違ってくる。でも、素材がおいしいかどうかは、食べてみれば分かる。素材の味を大切にする、データの家庭料理が大切になるわけだ。
 
みんなで食べる
フェナ:家庭料理って、みんなで食べるからおいしいのよね。

フェノじい:データも、みんなで食べてみる。できるだけ身近な課題で料理してみて、素材の味を味わってみる。科学研究や臨床試験のデータは、公開されることが多い。じいは、公開データを再解析して、研究の結論ではなく、前提条件をチェックしている。著者も気がつかない、見落としがあるものだ。特許制度によって、技術的発明は図面付きで公開されるけれども、データはほとんど公開されない。データの帰属を明確にして、著作権よりも強い権利としてデータを公開する工夫ができないものだろうか。
フェニイ:オープンソースのように、コンピュータープログラムが公開される時代になったのだから、データもデータ標準が確立されれば、技術的には難しくないと思うな。特許を科学論文のように考えて、集計に使った生データを自主的に添付する。それで審査がしやすくなるのであれば、お互いにメリットがあるし。
フェナ:特許や科学論文は難しくて、身近な家庭料理ではないわよね。グーグルマップなら面白そうだけど。
フェニイ:グーグルマップのデータは公開されていないけれども、自分で作ったプログラムで、グーグルマップを操作することはできるんだ。地域の観光ビジネスで使う場合は、グルメ記事などを工夫していたな。バーチャルに野鳥観察などができたら面白いかも。でも、おいしい生データではないな。
フェノじい:地域データのおいしい生データは、地域の人びとが工夫して集める化学データかもしれないぞ。昭和の時代なら、地理データといっていたかもしれない。経済的に意味のある地理データを工夫するというわけだ。ふむふむ。
 

  • フェノじいの寝言

全国の地方自治体は、行政データを公開している。しかし、地域で独自の地理データを収集しているとは思えないし、メッシュ統計にも対応していない。話の飛躍は、近未来の話だから許してもらおう。行政データの原本は戸籍データで、住民票と紐(ひも)づけられている。戸籍データの社会学的な考察は専門家に任せておいて、最も基本的な人口構成について考えてみたい。

地域の人口構成を、行政データではなく、観測データから推定できるのかという問題だ。水道や電力消費などのライフラインの経時データを統合すれば、かなりの精度で家族構成の推定が可能なことはわかっている。ただし、個人のデータになるので、犯罪捜査は例外としても、個人情報保護の問題がある。人工衛星のデータでは、通勤や通学などの関係人口も含めて、地域の経済活動の増減が推定できる程度だろう。

地理データというと、古代の地層分析のイメージだが、現在の社会経済状態を推定する地理データはありうるのだろうか。風に含まれる匂い分子の超高感度分析を行えば、産業活動だけではなく、人びとの生活に関する情報も含まれているだろう。特定の地域での風地理データを集積すれば、その地域での人口構成を予測できるようになるかもしれない。しかし、不正確な人口構成の推定にメリットはあるのだろうか。

例えば、人口密度を推定できるとすればどうだろうか。人口密度は、メッシュの大きさに敏感だ。ウイルスは人口密度をよく知っている。ウイルスから学ぶ方法もあるけれども、化学分析のほうが、経済的で現実的だろう。人口密度を推定できれば、社会現象の見方が根本から変わるかもしれない。社会統計力学を考える強力なデータとなるだろう。

逆に言えば、人口密度もわからない社会統計力学では、ウイルス以下の知恵でしかない。タワーマンションの人口密度をどうとらえるのかなど、人口密度は、時間だけではなく、空間の関数になるので、データでとらえることがとても難しい。人口構成を推定する方法を応用して、人口密度を推定しようというわけだ。ふむふむ。

【目次案】「おいしいデータの家庭料理」

1    はじめに; データをおいしくする家庭料理

1.1 おいしいデータは栄養たっぷり

1.2  地域のデータをおいしくする

1.3 データの学習と食事<本稿>

2    データの料理法

2.1 生データのしたごしらえ

2.2 データは発酵するのか

2.3 データの調理器具

2.4 データの献立表

2.5 データのフルコース

2.6 おいしいデータは、地域と人びとを健康にする

3  機械学習の学習

3.1 データをおいしく下処理してから機械学習する

3.2 機械と一緒にデータを学習する

3.3 機械と一緒にデータを使うビジネスを考える

3.4 楽しくデータの学習をする

3.5 データの学習は冒険でもある

3.6 機械と一緒にデータを使うビジネスの冒険をする

4  まばらでゆらぐデータの家庭料理

4.1 まばらでゆらぐ生活と経済のデータ

4.2  生活と経済を豊かにするデータの家庭料理

4.3 まばらでゆらぐデータの調理法

4.4  まばらでゆらぐデータで健康になる

4.5  データを使った生活と経済の予測

4.6 生活と経済のリスクを生き延びる

4.7 たくさんの小さな試行錯誤による適応

5  よりあいグループと社会

5.1 よりあいグループ(地域や家族)のデータ

5.2 よりあいグループのよりあいグループ

5.3 機械と学習するよりあいグループのデータ

5.4 よりあいグループのデータは廻る

5.5 よりあいグループのデータの周辺

5.6 よりあいグループのデータを予測する

5.7 よりあいグループのデータで社会問題を解決する

6  おわりに;生活と社会の近未来

6.1 ほとんど色即是空・空即是色な(まばらでゆらぐ)世界

6.2 まばらでゆらぐ人びとの地域社会

6.4 データでつながる、地域のNPOから国際NGO連合まで

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました。

コメント

コメントを残す