データをおいしく下ごしらえしてから機械学習する
『おいしいデータの家庭料理』第11回

6月 01日 2026年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

株式会社ふぇの代表取締役。独自に考案した個体差の機械学習法、フェノラーニング®のビジネス展開を、栃木県那須町で模索中。元PGRD (Pfizer Global R&D) Clinical Technologies, Director。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。趣味は農作業。

3 機械学習の学習

機械学習はAI(人工知能)の頭脳だ。そんな難しい技術を、専門家以外が学習する必要があるのだろうか。AIが人間の知能を超えて急速に進化しているのに、その頭脳を学習することなどできるのだろうか。

人間の言語活動は、高度に発達していて、多数の職業で言語の専門家が活躍している。日常生活だけであれば、言葉を自然に習得できる。それでも、小学校で国語を学習する。自分の言語に自覚的に向き合うことは、学習すること自体を学習しているともいえる。機械学習の学習は、AIがデータを学習することを学習する。機械学習の学習は、データの世界を体験することであって、データの世界への最初の冒険なのだ。

言語は、音声であれば聴覚データ、文字であれば視覚データとして脳やコンピューターに入力される。言語の意味を正確に把握するためには、教師から学習する必要があるとしても、話し言葉のおおまかな意味であれば、生得的に理解できる。言語が作り出す価値となると、政治家や詩人によって、社会や集団の中で意識的に生成された価値を、人びとは無意識に刷り込まれたり、強制的に追従させられたりする。データの意味とか価値も、たぶん言語と似たようなものだろう。しかし、データの場合は、意味が不明な、理解困難な状況において、多くの操作が要求される。ごくまれに、言語でデータの意味を理解できるようになると、データも言語の世界に取り込まれる。

データの操作の大半は、コピーを作成したり、重複する部分を探したり、不完全で不十分な部分を補正したり、機械的な操作だ。コンピューターは機械なので、データ操作が得意だけれども、データ操作は人間にとっては、苦痛でしかない無意味な作業だ。

機械学習の学習を、データ操作の学習から始めると、難しいだけで、大半の人びとにとっては、楽しくない、身につかない学習になる。AIの大規模言語モデルが、コンピューターの機械的な操作を、人間の言語に翻訳できるようになったおかげで、データの世界を体験するためには、データ操作の学習は不可欠ではなくなった。

データの意味が理解できないとしても、データを「表現」と見なすことで、意味不明な芸術作品や、意味があるかどうかもわからない自然現象のように、データと身近につきあうことができるようになる。

データを作品と見なすと、作者と鑑賞者が必要になる。データが何を表現しているのかということは、作者がいかにして作品を作ったのか想像することや、データをどのような人びととどのような目的で共有するのかということと、深く関係している。データの表現は、データの関係の表現であって、言語表現における関係の表現を、データの世界まで拡張して想像することになる。関数の定義域を拡張する、複素関数論の解析接続は、詳細に研究されていて、理系大学の数学で概要を学習する。データの世界でも類似の発想があるようだけれども、理論というよりは、実例の蓄積が必要だと思われる(※参考1:https://zenn.dev/schhrcat/books/164c4dc12ae463/viewer/3b4704 )。

さっそく、アルパカキャラたちに、機械学習を学習する、幻想の世界を冒険してもらおう。

3.1 データをおいしく下ごしらえしてから機械学習する
ファウスト博士

フェナ:昨日の夢にファウスト博士(※参考2:https://ja.wikipedia.org/wiki/ファウスト〈ゲーテ〉)が登場して、AIに「神の存在証明」をさせるのよ。AIは頑張るけど、最後の段階でうまくいかないために、論証のステップ全体を否定したらどうなるのか試そうとしたの。そうしたら、AIの論理全体がギューと収縮して、悪魔が登場したわけ。AIが悪魔に支配されそうになったときに目が覚めたの。AIが人間の知能を超えるまえに、AIは悪魔に支配されるのかもね。ファウストは悪魔に魂を売る契約が実現されそうになる直前に、神の愛によって救済されるけれども、神はAIを救済するとは思えないわ。怖い話よね。

フェノじい:現在のAIは、統計的に解釈した古典論理しか理解できないのじゃ。神の存在証明の否定は、神の不在証明になるのか、悪魔の存在証明になるのか、AIは予測できないのじゃろう。量子論理のように、重ね合わせの状態を認めてしまえば、AIも、もう少し現実的な思考になるのじゃがな。古典論理のように厳密な世界があって、現実の世界は、その確率的な誤差を伴う世界という理解ではなくて、そもそもが確率的な世界があって、現実の世界は、サイコロが振られた後の多世界解釈かもしれんな。じいとしては、並行に分裂する多世界解釈よりも、入れ子の世界のほうが気に入っているのじゃが、古典論理以外の論理世界は、まだまだ冒険談にもならない、出入り口を探している段階じゃな。

フェニイ:現代までの合理主義的な欧米文明におけるデータの世界は、古典論理による論証と、統計的な推論が、ビジネスの意思決定理論で結合されて、世界を支配してきたのさ。しかし、論理は様相論理や量子論理などの非古典的論理へと発展して、統計はベイズ統計までも含めるようになると、ビジネスの意思決定理論(典型的にはp値で規制される)ではデータの世界を統合できなくなったのさ。そこにAIの機械学習が出現して、推論の精度を上げて、論証もある程度できるようになって、高度な数学の未解決問題も解決しているんだぜ。しかし、人間ではAIの推論の中身を理解できないし、数千ページの論証を読む時間もないから、AIに追従するというか、AIを独占する企業や国家に支配されているのさ。データの世界そのものは、意思決定理論の束縛が無くなり、野生化しているんだ。データを独占しようとしても、データ間の関係までは独占できないために、データの荒野は果てしなく、無法状態だぜ。

フェナ:じいもフェニイも、少しはファウスト博士を見習って、神から見捨てられないようにしないとね。データの下ごしらえを地道に行って、みんなの生活に役立つ機械学習を考えるのよ。おいしいデータは、家庭菜園の野菜のように、多品種少量生産で、適度に野生化したデータね。持続的な採集生活ができるデータの世界かな。

地域データの下ごしらえに使う調理器具

フェナ:地域データを機械学習する準備はどうしたらよいのかしら。じいには、わたしでも使える調理器具を紹介してもらいたいものだわ。

フェノじい:高価なデータ解析ソフトは、使いやすくて機能がたくさんそろっているのじゃが、初心者がスーパーカーに乗っているようなもので、無駄というよりも、危険だわい。無料で高度なデータ解析ソフトもあるのじゃが、インストールすることから難しくて、初心者ではまともに使えないぞ。表計算ソフトは、小規模なデータであれば、使い方を工夫すれば、データの下ごしらえに役立ちそうじゃな。

フェニイ:マイクロソフトのエクセルをコパイロットで使ったり、グーグルのスプレッドシートをジェミニで使ったりする話かな。昨年までは、難しい関数や、マクロプログラムを使っていたのが、今ではAIに頼めば表計算を実行してくれるんだ。無料版もあるみたいだけれども、AIの学習にお付き合いしないで、多少の使用料を支払っても、AIに責任持って働いてもらうのがおすすめさ。

フェノじい:マイクロソフトでも、グーグルでも、それぞれ急速に賢くなってきておるので、比較しづらいのじゃが、両方使うほど入れ込む必要はないぞ。こんなこともできないんだみたいな感じで、AIの成長を楽しみにしながら、フェナと楽しく学習してみようか。

フェニイ:じいの作戦は、表計算ソフトでデータの下ごしらえをしてから、データをグラフデータベース、例えばNeo4j(※参考3:https://ja.wikipedia.org/wiki/Neo4j )に取り込むんだろ。じいとしては、難しい機械学習のデータ調理は、グラフデータベースで何とかしようというわけさ。

フェノじい:データ操作はAIに任せておけばよいのじゃが、AIといっても、それぞれ得意不得意があるぞ。AIの能力というよりは、人間とのコミュニケーションの問題で、表計算ソフトとか、グラフデータベースとかいう、具体的なデータモデルを使うと、AIが人間の指示を理解しやすくなるのじゃ。みんなで機械学習を学習する時には、表計算ソフトを使ったことがある程度の経験は期待できそうじゃの。グラフデータベースは、指示の出し方だけを学習して、コーディングはAIまかせがよいな。機械学習の学習結果は、グラフにすると理解しやすいので、再度、表計算ソフトに戻ることとするか。

市町村データの下ごしらえ

フェナ:表計算ソフトなら、私も使ったことがあるわ。

フェノじい:じいの時代には、IBM-PCという、インテルとマイクロソフトを結婚させた、IBMだんなが作ったパソコンがあったのじゃ。ゲーム用のパソコンではなく、ワープロと表計算ができる、事務用のパソコンとして、一世を風靡(ふうび)したものじゃった。ロータス123というカッコいいソフトだったな。ターボパスカルという、IBM-PCで動作するパスカルコンパイラーも市販されていて、初心者でも、表計算ソフトを作ることができる、教育的配慮もあったぞ。じいも、工作キットみたいに、表計算ソフトを作って、楽しんだものじゃ。フェナが生まれる前の、ウィンドウズ以前の話じゃ。

フェニイ:ロータス123やターボパスカルは、スピード感のあるカッコいいネーミングじゃないか。パソコンは小さくても速いというか、どんどん小さくなって、しかも速くなっている時代感覚なんだな。電気やデータをバク食いする現代のAIとは別次元さ。IBMもでっかい事務用計算機を作っていたが、IBM-PCにビジネスを乗り換えたのさ。

フェナ:コンピューターのビジネスよりも、データの話をしましょうよ。具体的に、日本の市町村データを、おいしく下ごしらえすることを教えてもらいたいわ。

フェノじい:例えば、「栃木県那須町に境界を接している市町村をリストアップして、都道府県別に表にしてください。」とジェミニに問い合わせると、以下のような回答になるぞ。「栃木県那須町と境界を接している自治体(市町村・行政区)は、栃木県内が2市、隣接する福島県内が2市1町1村の計6自治体です。都道府県別に分類した一覧表は以下の通りです。那須町に隣接する市町村一覧>都道府県市町村名>位置関係(那須町から見た方角)>>栃木県(2市)>那須塩原市>西~南>>大田原市>南>>福島県(2市1町1村)>白河市>北~東>東白川郡棚倉町>東西白河郡西郷村>北>>地理的なワンポイント那須町は栃木県の最北東端に位置しているため、福島県との県境に広く接しています。西側の那須塩原市とは那珂川などを挟んで隣接しており、東側の棚倉町とは八溝山(やみぞさん)の尾根筋を挟んで境界を接しています。」こういった情報は、行政のデータには含まれないし、地図から読み取ることはできても、表にするのは大変じゃろう。隣接する市町村や、山、川、海などの地理的特徴によって、関係グラフにすることを想定しているぞ。AIから知識を抽出して、グラフデータベースを作る下準備じゃの。

フェナ:地域の地理的特徴を、市町村相互の隣接関係でとらえるのね。人口は、人口密度のほうが地理的な特徴にも関連しそうね。年齢分布も学校や病院と関連しているし、生活関連で興味深いわ。例えば、小学生の児童密度を計算する場合、「那須町の小学生の生徒数を教えてください。」とジェミニに質問すれば、「那須町内にある公立小学校(全6校)の児童数は、合計で約800人強となっています。」と教えてもらえるので、那須町に隣接する6自治体の児童密度を計算して、那須町よりも大きい小さいという関係にするとか、一番大きいから、一番小さいまで、順位の関係にするとか、いろいろと関係が見えてくるわね。

フェニイ:地理的な関係は変化しないけど、人口や児童数は経時変化する関係になるな。国内すべての自治体が公式ホームページを開設しているし、そのほとんどでふるさと納税による地場産品の宣伝が行われているぜ。こういった、地域経済の特徴を、地域間の関係としてデータにしてみたいな。例えば、ふるさと納税の返礼品リストの類似度みたいなものを計算するのさ。この場合は、隣接している必要はないけど、地域経済単位としての県別にして計算するのがよいかな。例えば、栃木県には14の「市」と11の「町」があるので、それらの返礼品の類似度を計算するといった具合さ。

フェノじい:みんな、地域の特徴をとらえるデータとして、いろいろなアイデアがあるな。地域の特徴を、地域間の関係としてとらえることがポイントじゃ。隣接地域や都道府県別だけではなく、新幹線の駅の近接関係とか、高速道路のインターチェンジの近接関係など、経済圏としては、交通の関係も重要じゃな。地域のデータそのものとしては、人口や面積など、10個程度の属性値に限定して、属性値から計算する関係の多様性に注目するのじゃ。属性値を推定するのに十分な情報が含まれる「網羅的データ」の活用も想定しておこう。「網羅的データ」は、数百から数千のデータ項目となるため、グラフデータベースにはJSON形式(※参考4:https://www.snowflake.com/ja/fundamentals/what-is-json/ )の大きなデータとして登録するとよいじゃろう。グラフデータベースは関係の表現は得意だけれども、JSON形式のデータは、専門的なデータ解析ソフトでデータ処理することになるぞ。ただし、その解析プログラムはAIで作成して、表計算ソフトの外部プログラム(Pythonプログラム)として登録しておくのじゃ。

地域経済のオルタナティブデータ

フェナ:じいの「網羅的データ」の話は、どうもよくわからないのよね。物理学のデータなら具体性があるけれども、地域経済データの場合は、どうなのかしら。

フェニイ:国の経済の場合は、経済力が問題になるけれど、地域経済では、経済力というよりは、経済の活力とか、発展性が気になるな。地域おこしというやつさ。そうすると、地域おこしの「網羅的データ」は、どのようにして測定するのかという問題になるのか。行政の立場から、地域おこしの成果を評価するという話はよくあるとしても、評価基準が100通り考えられるとして、そのすべてを推定しうる「網羅的データ」となると、数千のオーダーのデータ項目になりそうだ。そしてそれを、センサーデータの経時変化として測定するのさ。いわゆる地域経済のオルタナティブデータということだな。

フェノじい:突然、フェニイがやる気を出してきたぞ。すべての現象において、因果関係がある神の国ではなくて、経済の世界は、カオスがたくさん登場するぞ。原因を理解できなくても、素早く予測すれば、ある程度、カオスも制御できるというわけじゃ。制御できなくても、逃げることはできるぞ。もちろん、センサーデータをAIが解析して、人間が気付く前に予測する場合じゃがな。オルタナティブデータで、変化の予兆をとらえるのじゃ。

フェニイ:気象データもカオス満載だけど、人工衛星のデータが使えるようになって、台風の進路予測が正確になり、中長期予報ですら信頼できるようになったじゃないか。経済データだって、景気後退のシグナルを見極めて、経済活動と社会活動の連携における位相のずれを検出するのさ。経済バブルがはじけるのも、経済の温度や圧力が測定できれば、予測できるようになるし、地域経済データを機械学習することで、経済行政全体が変革できそうだ。

フェノじい:オルタナティブデータを積極的に利用することで、地域経済データの機械学習は、市場経済の機械学習に帰結するのじゃろう。どのようなオルタナティブデータが使えるようになるのか、楽しみじゃな。スマホデータが有望だとしても、人工衛星データや、巨木の定点観測、環境ウイルスデータなど、地域経済のオルタナティブデータの社会実験は、AIが学習するデータを下ごしらえする、重要課題じゃの。

おいしいデータの下ごしらえを特許出願する

フェノじい:地域経済データの機械学習は、機械学習の学習課題として考えてみたのじゃった。AIが学習するデータを下ごしらえする、ビジネス課題としては、産業分野別の、業界データの機械学習が、21世紀の経済成長にとって、決定的になるぞ。医薬品のような規制産業が、世界レベルでの産業競争力の原動力となった時代があった。グローバル製薬企業では、社内データを徹底的に学習して承認申請し、FDA(米国食品医薬品局)では、承認申請されたすべてのデータを学習して、合理的な規制を作ってきたのだぞ。しかし、製薬企業においても、政府においても、機械学習は部分的にしか活用できていないのじゃ。薬効の個体差がブラックボックスになっていて、臨床試験の結果(統計的エビデンス)しか信頼できない、ドツボにはまってしまった。規制のハードルが、患者個人のリスクベネフィットではなく、医療と製薬企業の経済的バランスになってしまったのじゃ。製薬業のような規制産業は、20世紀のビジネスモデルじゃな。

フェニイ:医薬品は、難しい歴史があるので、簡単に21世紀ビジネスモデルにはなりそうもないぜ。それでも、MedDRA(国際医薬用語集)の成功事例のように、規制産業における用語の統一は機械学習時代でも不可欠さ。OSS(オープンソースソフトウェア)のように、機械学習の下ごしらえに使う用語集を、公開して管理する仕組みが必要だな。MedDRAも単なる用語集ではなく、国際疾病分類(ICD)との整合性を保つように工夫されているんだぜ。構造化された用語集として、知識グラフを公開することが、当面の目標さ。

フェノじい:産業分野別の業界団体が、国内外でのコミュニケーションを行うために、知識グラフを機械学習で作成して公開するのじゃ。その知識グラフを機械学習して活用すれば、業界データが品質管理されるようになるぞ。やはり20世紀に成功したグローバルなビジネスモデルであるISO(国際標準化機構)のドキュメント主義に対応して、AI時代のデータの世界への延長とも考えられるのじゃ。最近のAIは急速に賢くなっているのじゃが、それは単なる知識の詰め込みではなく、知識グラフのような構造化された知識を抽出しながら学習するようになっておる。しかし、現在のAI技術では、機械学習して構造化された知識を明示的に取り出すことができないし、したがって公開することもできないのじゃ。そんな中途半端な技術ではなく、業界として、責任をもって開発して公開する、構造化された用語集としての知識グラフが、21世紀のビジネスモデルとなるじゃろう。業界団体の知識グラフが中核となって、21世紀のビジネスモデルに切り替えれば、国際的に競争力のある産業へと、自然に再編されるのじゃ。中小企業の業界団体の場合は、知識グラフを公開して管理する仕組みを作ることが大変なのじゃが、知識グラフを使う機械学習のビジネス応用を考えて、業界団体が特許出願する作戦もあるぞ。ISO並みの国際的業界知識グラフが100個程度、業界知識グラフの国際特許出願が1000個程度、世界に先行して、存在感を示すのじゃ。

フェナ:じいの話は威勢がいいけれども、日本の業界団体が足並みをそろえて、世界で最先端の知識グラフを作るとは思えないわね。

フェニイ:公開しうる業界データは、すでに公開されているはずさ。東京都23区を加えた1741市区町村と、47都道府県は、みんなホームページを持っているんだぜ。公開データだけを使っても、ある程度の業界知識グラフが作れるのだから、自治体DX(デジタルトランスフォーメーション)が分担すれば、ホームページの数程度の業界知識グラフを作ることも不可能ではないぜ。みんなで機械学習を学習することに、行政が教育投資をするんだ。地域経済データの機械学習を題材にしながら、最終的には、分担して業界知識グラフを作るのさ。

フェナ:フェニイの作戦のほうが実感があるけれど、業界知識グラフを作るための、大規模なeラーニングの教材を作るだけでも大変そうね。業界知識グラフの作戦は、作戦として具体化をすすめながら、まずは那須町で「みんなで機械学習」を始めましょうよ。どこかの業界団体が、教育投資として、資金援助してくれないかしら。那須町ではクラウドファンディングを推進しているので、まずは教材を用意してみましょうか。

  • 番外コラム:個人運転代行

地方で生活していると、都会のように、居酒屋やバーで飲酒を楽しむことは難しい。帰路を運転代行に依存するしかないのだけれど、料金の問題以上に、行政の関与が限定的で、サービスの品質が不確実など、代行会社の信頼性の問題がある。

自動運転技術が普及して、都市部や高速道路以外でも使えるようになって、飲酒後に自動運転で帰宅できるようになるのは、25年後でも難しいかもしれない。自動運転技術は、タクシーやトラック輸送のような、専門サービスでは実用化が早い。会社が責任主体であるため、個人が免許証だけを根拠にする場合と、責任能力が大きく異なるからだ。

自動運転の技術としては、トラックの隊列走行のほうが容易で、運転者の責任も明確になる。様々な条件付きの承認になるとしても、10年以内には実現できそうだ。技術的には、全車速追従機能付クルーズコントロール(ACC)が中心で、ACC技術はほぼ完成しているし、高速道路の渋滞対策として、乗用車に実装されている場合もある。もしACCが高速道路以外でも実用できるのなら、代行車のあとから、ACC付きの自家用車で追尾すれば、個人タクシーのように、個人運転代行が可能になるだろう。

ACCの技術を、地方の運転代行に利用する場合であっても、制限速度や自動車保険など、解決すべき課題はたくさんあるので、小規模な社会実験から始める必要がある。運転代行のコストが下がって信頼性が増せば、通学支援、買い物支援や通院支援など、地方生活でのニーズはたくさんある。地方生活は、クルマ社会との適応・共進化が不可欠だ。Uberとは別種の、個人運転代行のスマホサービスも誕生するかもしれない。

地方生活が、クルマに依存するのは、生活様式が都会化しているからだろう。水道、下水道、電気、ガス、電話、インターネットなど、ほぼすべての生活インフラが、都市生活から作られてきた。学校や病院も都市部に集中する。地方に分散しているのは、農地と刑務所ぐらいだろうか。

データの世界では、海底ケーブルや宇宙通信が重要で、都市の生活インフラを必要とはしていない。地域データネットワークのセキュリティーが、GPS(全地球測位システム)情報とタイムスタンプで物理的に保護されるようになって、インターネットと区別できれば、地方生活でのデータ利用が高度化して、都市部と逆転するかもしれない。

地域データネットワークの中で使う安価なスマホに、個人運転代行サービスやロボット介護サービスが実装される近未来は、地域おこし以上になるかもしれない。

【目次案】「おいしいデータの家庭料理」
1     はじめに; データをおいしくする家庭料理
1.1 おいしいデータは栄養たっぷり
1.2   地域のデータをおいしくする
1.3 データの学習と食事
2     データの料理法
2.1 生データのしたごしらえ
2.2 データは発酵するのか
2.3 データの調理器具
2.4 データの献立表
2.5 データのフルコース
2.6 おいしいデータは、地域と経済を健康にする
3  機械学習の学習
3.1 データをおいしく下ごしらえしてから機械学習する<本稿>
3.2 機械と一緒にデータを学習する
3.3 機械と一緒にデータを使うビジネスを考える
3.4 楽しくデータの学習をする
3.5 データの学習は冒険でもある
3.6 機械と一緒にデータを使うビジネスの冒険をする
4  まばらでゆらぐデータの家庭料理
4.1 まばらでゆらぐ生活と経済のデータ
4.2   生活と経済を豊かにするデータの家庭料理
4.3 まばらでゆらぐデータの調理法
4.4   まばらでゆらぐデータで健康になる
4.5   データを使った生活と経済の予測
4.6 生活と経済のリスクを生き延びる
4.7 たくさんの小さな試行錯誤による適応
5  よりあいグループと社会
5.1 よりあいグループ(地域や家族)のデータ
5.2 よりあいグループのよりあいグループ
5.3 機械と学習するよりあいグループのデータ
5.4 よりあいグループのデータは廻る
5.5 よりあいグループのデータの周辺
5.6 よりあいグループのデータを予測する
5.7 よりあいグループのデータで社会問題を解決する
6  おわりに;生活と社会の近未来
6.1 ほとんど色即是空・空即是色な(まばらでゆらぐ)世界
6.2 まばらでゆらぐ人びとの地域社会
6.4 データでつながる、地域のNPOから国際NGO連合まで

--------------------------------------

 技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました。

コメント

コメントを残す