山口行治(やまぐち・ゆきはる)
株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
◆人工超知能
知的労働者の知能を超える人工超知能(ASI: Artificial Super Intelligence)は、すでに実現されている。最強のプロ棋士でも、囲碁や将棋のプログラムに勝つことができない。医師・弁護士・プログラマーなど、高度な知的労働の知能の部分は、生成AI(人工知能)を使うことで生産性が高くなっている。しかし、医師や弁護士の場合、社会的責任や社会制度の制約があるので、職業としては失業せずに繁盛している。定形業務やコールセンター対応、業務プログラム作成などの初等的な知的労働を行うホワイトカラーの職業は、すでに相当部分がAIプログラムに置き換えられている。しかし、リモートワークやワークシェアリングなど、社会における職業の構造的な問題では、先進諸国においても、AI技術の影響は始まったばかりだ。最初にAI技術よる破壊的な影響があったのは、戦地での職業軍人の役割かもしれない。
現在のAI技術の核心部分は、確率的な動作が仕組まれていて、しかも、その確率は「計算不能」なプログラムの停止確率と関連している。データの量がテラバイト(10の12乗)を超えると、膨大な量のデータだと思われるけれども、数学的に定義されているモンスター群の位数は、10の53乗バイトの整数で、厳密に計算されている。したがって、テラバイトのデータ自体は無限な量に近いわけではない。計算不能な量は、計算式では表すことができない。実数であることが証明できたとしても、予測不可能な数字が無限に続く。データを使った計算アルゴリズムに計算不能な量が関係していることで、必然的に、現在のAIプログラムは、確率的な動作(乱数を使う計算)となっている。
本稿で紹介する「A Small Data Approach」(※参考1:)は、35キロバイトの臨床研究データを統計解析してから機械学習する。大規模言語モデル(LLM)のテラバイトのビッグデータから見ると、本当にスモールデータだ。しかし、確率的なアルゴリズムで、データを1000倍に増加することができるし、最終的には1億(10の8乗)個程度のパラメータを含む、個体差の機械学習モデルを作ることも可能だろう。スモールデータであっても、本当に大切なデータであれば、徹底的に機械学習してみる価値がある。現在の技術レベルであれば、計算機の記憶容量や計算時間は、大きな問題にはならない。
人工超知能(ASI)が、近代の産業革命に相当する重要な技術革新であることを否定するつもりはない。しかし、ASIを使う人間の認知能力にも、新しい可能性を見いだしたいものだ。計算能力や論理的推論能力ではASIにかなわない。しかし、計算不能な量や計算不能な問題は、計算可能な場合よりもはるかに多いことは確実だ。
ほぼすべての実数(1/3などの循環小数、√2などの代数方程式の解となる代数的数、πなどの超越数以外の実数)が計算不能であって、実数は計算可能な整数よりも、はるかに多いことが数学者ゲオルク・カントール(1845年~1918年)によって証明されている。しかし、人類は実数の大部分を知らないし、現在のASIが実数を発見することはできない。実数と乱数はどちらが多いのか知らないけれども、確率変数が作る確率空間や確率論における測度を構成するボレル集合体(※参考:https://ja.wikipedia.org/wiki/ボレル集合)は想像を絶するほど大きなもので、少なくとも実直線として直感的に理解できる実数とは異なって、確率変数はとても抽象的な存在だ。抽象的とはいっても、量子力学において物質の世界を記述するために必要なのだから、確率変数は現実的な存在でもある。
因果関係すら疑わしい量子論の世界を、直感的に理解することはできそうもないけれども、せめて、カントールが100年以上前に証明した不思議な命題、1、2、3などの自然数の全てと、自然数の半分に相当する偶数の全てが、1対1対応するのだから、自然数と偶数は同じ個数あるということの意味を、直感的に理解できるようになりたいものだ。
数学的には、無限集合の理論として集合論が整備され、さらに、集合論の問題点を、1対1対応を抽象化して、圏論として乗り越えてきている。しかし、現代の数学者であっても、圏論が論理的に優れていることを理解しても、あまりに抽象的な理論であるため、実用的な道具として使いこなす段階ではない。
計算可能な世界のASIと、計算不可能な世界を探索する「ひとびと」が、近未来のデータの世界において、近代産業社会が作り出した膨大な問題の山を、丁寧に整理し直すことを期待して、「みんなで機械学習」することにしよう。
〇 Google Gemini実況中継-3 PositronとGeminiでRコードを生成/実行する
前稿では「Small Data Approachであれば、GhatGPTとRという選択もありかもしれない」と締めくくった。添付した上図は、Positron(※参考: https://positron.posit.co/ )という、データサイエンスにおける多言語(R/Python)統合開発環境にGemini Code Assist機能を追加したものだ。データサイエンスのR言語では、RStudioという無料の統合開発環境(IDE)が、大多数のユーザーに使われてきた。PositronはRStudioを開発したグループによる、多言語のコーディングを支援するAI統合環境だ。生成AIの機能で、RやPythonのプログラムコードを自動生成する。Google Geminiは、Positronで選択しうる無料のコード生成AIとして、Positronとの連携がサポートされている。
Geminiの機能としては、Google Spreadscheetとの連携(前稿)と同じなのだけれども、RやPythonのコードを、直接Positronで実行できるので、シミュレーションで新しく大量の表(データフレーム)を作ることもできる。日本では、個人用途のGeminiしかサポートされていないので、プロンプトの(データを含む)情報をGoogleが使えなくする、などのセキュリティーへの配慮が必要で、現時点では、本格的な仕事での利用は控えるほうが良いだろう。
ChatGPTやGeminiなどの、AI単独の機能は日本でも米国とほぼ同時に試すことができるとしても、Positronなどのより実務的なAI利用になると、ビジネス環境として、日本では(故意に?)最新の技術が使えない制約がありそうだ。中国との競争を意識すると、日本のように能天気な社会では、中国に技術が流出するリスクがあるのだろう。
いやな時代になってきた。実況中継を続けます。
◆閑話コラム記事11 社会の分散が収束しない
社会統計では、多くの場合、期待値(平均値や中央値)を計算して、場合によって相関を計算する程度だろう。自然科学では、正規分布を仮定する場合が多いので、平均値と分散を計算する。経済格差については、世界の上位1%の富裕層の資産総額が、残りの99%の資産総額よりも多いなどと、パーセント分位を使って(50%分位が中央値)、分かりやすく表現されている。しかし、資産の分布が正規分布ではないことは自明であっても、どのような確率分布になっているのか、その期待値の意味や分散の意味については、よくわからないことが多い。例えば、パレート分布を仮定する場合、理論式では、平均値や分散が無限大に発散してしまう場合がある。もちろん、有限なデータを使って、形式的に平均値や分散を計算できるけれども、その理論的な意味がわからないということだ。
富裕層には、「ビリオネアクラブ」などという言い方もあるので、1%の富裕層のグループと、その他の99%の人びとを層別して解析すると、期待値や分散の意味がわかりやすくなるかもしれない。統計では、「外れ値」という言い方もあるので、社会統計では、1%の外れ値を除外すると、まっとうな統計になるのだろう。
国勢調査などの社会統計の有限なデータでは、すべての変数で形式的に分散が計算できてしまう。分散がとても大きい場合は、外れ値が含まれている可能性が多い。従来の統計では、個人情報をマスクしてしまうと、外れ値の意味がわからなくなる。外れ値の定義も、恣意(しい)的な場合が多い。しかし、機械学習で詳細にデータを解析すれば、外れ値に相当する、特殊な社会集団を抽出できる。実際にネット取引では、契約を解除する可能性が大きい契約者の集団を抽出して、営業活動が行われている。
理論的なモデルとして、分散が収束しない社会集団では、社会ネットワークがどのようになっているのか興味深い。SNS(sorcial network system)が炎上するように、ある種の連鎖反応が起こりやすい集団の構造を機械学習するなど、個体差の機械学習(フェノラーニング®)にも、ユニークな応用課題がありそうだ。
◆閑話コラム記事12 AIの儲け話はギャンブル
AI技術を使えば、専門知識が無くても、大きな投資をしなくても、アイデア次第で儲(もう)けることができるという話は、要注意だ。ギャンブルと同じで、儲かった場合だけを宣伝して、数限りない失敗は無視されている。しかもAI技術には、スマホのような強い依存性まである。
大企業では、AI技術を使って、大幅な生産性向上(すなわち人員削減)が行われている。AI技術には膨大な投資が行われているので、大企業が儲かるように計算はできているのだろう。
筆者は、そのような計算も、結局ギャンブルに過ぎなくて、AIバブルはいつか弾けると考えている。AIビジネスで、もしくはAIビジネスへの乗り遅れで、多額の損失を計上する企業が現れるという意味だ。バブルが弾けても、AI技術は残る。だから、「みんなで機械学習」をして、儲からなくなったAI技術で、地道にビジネスを行うことを考えてみよう。AI技術で、社会変革や社会問題の解決が可能になるためには、まずは地道なAIビジネスが草の根となって、AI技術で回る社会のイメージが、人びとに共有される必要がある。
大企業とは違って、中小企業では、AI技術による人員削減は期待できない。すでに、経営者も従業員も、一人何役もこなしている。特に日本では、経営者の後継者が見つからず、従業員も外国人労働者に依存しつつある。高価なAIエージェントの活躍する場面が無いのだ。
しかし、安価なAIエージェントであれば、話は別だ。税理士、社労士、弁護士など、社外の専門家に依頼する仕事をAIエージェントが最適化するだろう。そのようなAIエージェントは、社外の専門家が用意する。コンサルタントの仕事も、AIコンサルタントが仲介することで、価格破壊される。筆者の仕事であれば、データサイエンスのAIコンサルタントが、データ発生とデータ利用の場面を理解して、必要最小限のデータ解析を発注するだろう。「みんなで機械学習」がその役割だ。
最重要なことは、業務データを大企業に盗まれないように、データ管理することだ。SaaSなどのクラウドサービスでは、個人情報や機密情報は保護されても、AIが学習しうる業務データが保護されない。銀行などの大企業は、信用調査などという口実で、膨大な量の、中小企業の業務データを収集している。
データ管理の要点は、データを記述するデータモデルであって、標準モデル以上の、自社固有のデータモデルは資産として管理するようにしよう。データ管理の基本はドキュメント管理なので、社内文書の専門用語辞書を作ることから始めるとよいだろう。中小企業の場合、10年以上の社内文書を収集しても、AIエージェントであれば、その分析/整理には1日も必要としないだろう。
地道なAIビジネスは、経営者や従業員の健康管理にも役立つはずだ。会社の仕事に起因するストレスや疲労を計測して、適切に調整する職場環境を、ほぼ無料で作れるだろう。地道なAIビジネスは、安価なので、大儲けにならないかもしれないけれども、中小企業の必要に応じて、多くの可能性があることは確かだ。
※参考1:「DATA ANALYTICS – A Small Data Approach」(SHUAI HUANG and HOUTAO DENG, CRC Press,2021)
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました。
コメントを残す