п»ї 既にそこにあるデータ 『みんなで機械学習』第18回 | ニュース屋台村

既にそこにあるデータ
『みんなで機械学習』第18回

3月 29日 2023年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニングのビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆制作ノート

英国の経済学者エルンスト・シューマッハー(1911~1977年)の「スモール イズ ビューティフル」における中間技術の提案を、「みんなの機械学習」として実現するため、「スモール ランダムパターンズ アー ビューティフル」という拙稿を連載している。前稿では、社会全体がサービス業化する近未来における、データサイエンスの役割について考えてみた。前稿をふり返りながら、本稿への足掛かりを探して、「制作ノート」としている。本稿は途中の画像以降なので、制作ノートは、飛ばし読みしてください。

「スモール ランダムパターンズ アー ビューティフル」のゴールは、結論ではなく、希望を実感することにある。古典的なモノの価値を問う経済学から、コト(サービスなど)の意味を重要視する経済学への移行を時代背景として、近未来のデータサイエンスが、人類の文明論的な変革をもたらす夢物語を、少なくともディストピアとはしない、複数の道程を探したい。物語のゴールにおいては、意味が認知される以前の「データ」そのものが、みんなの機械学習によって、「言語」とは別の、文明の道具になるだろう。

DSM-3R

筆者自身のデータサイエンスの出発点を、40年前の体験談として紹介してみたい。ロンドン大学で医学系のPh.D.(博士課程)の学生だった1980年代の話だ。英国および日本の精神医学が、米国流のDSM-3(Diagnostic and Statistical Manual of Mental Disorders=「精神疾患の診断・統計マニュアル」第3版)へと移行しようとしていた。従来の精神医学は、精神病理学などの歴史的背景もあり、精神疾患の記述的な分析が主流だった。英国および日本の医学部精神科では、統計(statistices)やマニュアル(manual)という、米国流の考え方に違和感があり、医学部の教育現場は混乱していた。医療行為としては大きな変化が無いようであっても、医学論文をまとめるときにはDSMを理解している必要がある。精神科領域の新薬を処方するためにもDSMは不可欠になっていた。筆者は学生だったけれども、医学部ではごく少数の統計プログラミング習得者で、論文の作成など、データ解析の手伝いをしていた。当時の日本での統計計算は、米国の大型計算機センターを有償(時間貸し)で使用していたので、ロンドン大学計算機センターを無償で使えたのは、とてもうれしかった。精神科のセミナーなどで、StatisticsやManualの話をする機会があり、みんなが何がわからないのか、わかったような気がした。チェックボックスの集計の方法がわからないのではない。そのような方法で、精神疾患を数字で表現して、何がわかるのかわからないのだ。DSMというマニュアルは、医学部や病院の精神科で使われるけれども、実際に役立つのは、医薬品の開発や、政府の医療政策においてであることを、門外漢の産業人の立場から説明してみた。聡明な大学教授たちは、医師の役割として、患者の治療は当然として、医療の進歩に寄与したり、医療経済にも配慮したりする必要があることに気が付いたようだった。

現在では、米国流のDSMが、WHO(世界保健機関)のICD(International Statistical Classification of Diseases and Related Health Problems=疾病及び関連保健問題の国際統計分類)に組み込まれて、世界標準となっている。ふり返って、精神医学はその当時よりも進歩したといえるだろうか。多数のひきこもりや自殺に、有効な対処ができない政策、認知症の医療経済には、明るい展望があるとは思えない。政策や統計(Statistics)を優先して、医療が患者個人や患者の家族を見失った大きな代償として、政策や統計(Statistics)自体の進歩も止まってしまったようだ。

◆薬効の個体差

もう少し時代をさかのぼって、21世紀の入り口で、新薬の開発が行き詰まっていた時の話をしよう。精神科系の臨床試験では、相変わらず、チェックボックス式のデータを集計していた。ガンの新薬開発では、遺伝子解析と画像解析が急速に進歩して、新薬ラッシュ目前だった。筆者のグループでは、PET(陽電子放出断層撮影)やMRI(磁気共鳴画像)による、脳機能画像のデータを、新薬開発に応用するための基盤技術を担当していた。当時の日本の技術は、東芝メディカルや浜松ホトニクスなど、世界の先頭グループだった。もう少し未来の技術として、パーキンソン病患者の音声を分析して、早期診断に役立てる可能性にも挑戦していた。パイロットの音声を分析して、ストレス・眠気・疲労を検出する技術に注目していた。米国では軍事技術として、製薬企業との共同研究が実現できなかった。日本の自衛隊では、技術の平和利用として、逆に歓迎された。音声からストレス・眠気・疲労を検出する技術は、当時のスーパーコンピューターを使って、何とか実現できた。しかし、肝心の臨床試験のデータを分析すると、個体差が大きくて、とても使い物にならなかった。

パーキンソン病の専門医は、患者の音声で病状を診断できる。だれでも、音声で性別を区別できるし、ある程度、年齢も推測できる。そこで、臨床試験のデータとしての性別や年齢を、個体差の共変量とする常識的な方法ではなく、音声から推定した性別や年齢を共変量としてみたら、診断の誤差が多少減少した。音声から推定した性別や年齢よりも、臨床試験のデータとしての性別や年齢のほうが「正しい」ことは明らかだし、症状変化の推定誤差が「多少」小さくなっても、実用的には問題外であったため、研究の継続は断念することになった。その時には、なぜだかわからなかったけれども、常識的な統計学の方法を「改善」する可能性があることに気が付いた。機械学習がホットな話題になった20年後の今日、個体差を含むデータの機械学習法、フェノラーニングを考案して、ビジネス応用を模索している。

◆臨床試験の再現性と解釈可能性

データを数字で表現することで、何がわかるのだろうか。測定結果としての数字が記録されるだけのことなのだろうか。言葉でわかりやすく説明されないと、データは理解できない。数字自体には意味は無い。おそらく、多くのひとびとの実感だろう。筆者は中学の倫理社会で西洋哲学史を学んだときに、ギリシャ語は理解できないけれども、ソクラテスの言いたいことがわかったような気がした。真理の探究に、正解や結論は無いということだ。ソクラテスは、君主や賢者のいうことは信用せず、ひとびととわけのわからない対話をする反逆者として処刑された。プラトンは、ソクラテスの教えを、数学と化学反応させて、哲学者以外にはわけのわからないものにした。アリストテレスは、本当にわけのわからないものを、無重力の壮大な体系に築き上げた。未来の哲学では、プラトンはデータサイエンティストで、アリストテレスはAI(人工知能)主義者だ。そして、データの世界にも、正解や結論が無いことを信じて探求を続ける、ソクラテスとその話し相手が必要なのだ。

横道にそれてしまった。データの世界は新世界で、言語の世界ほど深く探求されていないことを、筆者自身の体験談として伝えたかった。現在、グローバルIT(情報技術)企業は、データの世界を主戦場としていて、データの世界は経済的にも軍事的にも、激しい覇権争いのレッドオーシャンであるかのように見える。それなのに、データの世界について、40年前や20年前の体験談、2500年前の哲学では違和感があるはずだ。その違和感の部分が、技術的に探求されていない未踏領域なのだと思う。データのビジネスとしては、グローバル企業や覇権国家のビジネスではなく、中小企業や商店のビジネスに相当する、データビジネスの底辺が未踏領域だ。資本主義社会では、お金は大企業や国家に集中する。近未来のデータ資本主義においては、データが大企業や国家に集中するとは限らないことに留意しよう。少なくとも、多くの経済データや健康データは、ひとびとのデータであって、ひとびとの生命や生活が、大企業や国家に独占管理されないかぎり、データは言語のように、生成や変容を繰り返す「社会」の属性と考えられる。筆者の立場からは、データの個人情報保護を意識しすぎるのは、データが大企業や国家に集中する現状を容認する危険性がある。データそのものの所有権ではなく、データによるサービスを、著作権などの知的財産権として、社会的に保護するほうが望ましい。

もっと具体的に、データの世界の未踏領域、データの社会性について考えてみよう。臨床試験では、無作為化比較試験の結果が、最も「科学的」と考えられている(evidence-based medicine=EBM〈科学的根拠に基づく医療〉)。しかし、EBMは統計的根拠でしかなく、統計学会自身からも、p値(統計的有意差)の意味は必ずしも科学的ではないと批判されている。臨床試験の結果が科学的であるためには、試験結果の再現性と、試験結果を別の状況、特に特定の患者にあてはめて解釈することが不可欠のはずだ。残念ながら、現在の臨床試験の統計学的方法では、試験データの範囲内でしか議論できない。従って、試験の再現性や、個別の解釈可能性は、多数の試験を(メタアナリシスなどの手法で)経験的に整理して、(エビデンスのレベル感など)半定量的に総合判断している。もちろん、専門家は、こういった臨床試験の限界をよく理解していて、健康保険データなどの電子的な診療データを使ったリアルワールドデータ(Real World Data)の利活用を推進している。しかし、現在のリアルワールドデータは、臨床試験のデータと全く異なる社会基盤であるため、相互のデータを関連付けることができない。患者会やクリニックの患者を集めたパネルデータの試みはとても有力で、前向きの臨床試験と、後ろ向きの疫学研究のデータを相互に関連付けることができる。このように、患者集団が主体的にデータを収集する場合、実施経験が限られているので、技術的な問題や、倫理への配慮など、慎重に検討する必要がある。製薬企業が経済的な理由で、安易にパネルデータを使う場合があるけれども、製薬企業としても、科学的に質の高いデータの取得を目指してもらいたい。

患者会やクリニックの患者を集めたパネルデータの方法は、消費者集団の経済データに応用できる。地域の中小企業や商店が、地域のクリニックの役割となり、生産者と消費者をつなぐ、データサービスを展開する構図だ。田舎暮らしによって、自給自足をめざす場合でも、生産者と消費者が同一であったとしても、食品をおいしく健康的に調理する方法など、生活の中でのデータサービスが重要であることに変わりはない。電気やガスなど、エネルギーの自給自足を目指す場合でも、地域内のグリッドの設計やごみ処理など、地域のデータサービスが、地域社会のストレスを軽減できるはずだ。AI技術の社会実装は、政府主導のトップダウンだけではなく、地域の経済主体によるデータサービスという形で、ボトムアップとのバランスに配慮してもらいたい。大手の生命保険や傷害保険では、病気や交通事故のリスクを軽減するデータサービスが始まっている。地域金融機関も、地域の中小企業や商店と連携して、地域の社会問題に関連するデータサービスを、地域保険の形で提供することも可能だろう。データの社会性を、生活や実務の中で体験するために、みんなで機械学習する「中間技術」によって、初歩的なデータサービスとして実現してゆきたい。

春キャベツ 2023年2月17日 筆者撮影 キャベツの個体差

『スモール ランダムパターンズ アー ビューティフル』

1   はじめに; 千個の難題と、千×千×千×千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス アンド テクノロジーへ

2.3 データサイエンス テクノロジー アンド アート

2.4 データサイクル(前稿)

2.5 データベクトル

データは文字や言葉ではなく、数字や記号の集合であって、データ自体には意味や価値はない。データは数字を取り扱うので、数学に近いと思われるかもしれない。統計計算には数学が必要だけれども、単純な計算を大量に行うという意味で、統計は数学というよりも、機械的な計算であって、コンピューターとの相性が良い。データはモノではないけれども、モノを測定して、数字で表現すると、データになる。モノがデータになるプロセスは、モノの世界を知覚する脳のプロセスと似ている。脳の機能は、よくわからないことが多いように、AI(人工知能)の動作も、よくわからないことが多い。AI技術の中枢部になる機械学習は、コンピューターが人間的な意味での知識を学習するのではなく、コンピューターがデータを学習する仕組みだ。データを学習した後に、データから統計計算によって、人間的な意味での知識を抽出する。人間はデータの学習が不得意で、とても遅い。おそらく、コンピューターは、人間よりも100万倍以上高速にデータを学習する。データの記憶力を、コンピューターと人間で比較する必要もないだろう。全人類の記憶力より、1台のパソコンの記憶力のほうが優れていることは確実だ。しかし、人間的な意味での知識を学習するのは、人間が得意としている。前世代のAI技術である知識ベースや推論エンジンは、人間の得意領域だったために、あまり役に立たなかった。現在のAI技術は、データを機械学習して、即座に判断する反射神経のような機能だ。AI技術が、労働者や軍人の役割を代替(だいたい)しつつある。AIの労働には知的労働も含まれ、コールセンターの質疑応答などに活躍の場を広げている。現在は、高度な知的労働、AIが苦手とする倫理的な判断や、AIを進歩させる科学技術やデータサイエンスなどの人材が求められている。ひとびとは失業しないために、低賃金で働くしかなくなるのだろうか。AIが労働し、ひとびとはベーシックインカムで生活が支えられるとしても、そのような未来はディストピアだ。

現在のAI技術は、現在の資本主義社会が必要とする技術だ。近代合理主義の延長で、勝った負けた、生産と消費など、2項対立のバランスを重要視する。現実の社会は、理想的な均衡状態ではなく、戦争や恐慌のリスクをうまく管理できていない。それでも、産業構造としては、IT(情報技術)の飛躍的な発展の影響で、行政も含めて、すべての産業がサービス産業化している。家庭内労働はサービスそのものだし、身体も各部位が独自のサ-ビスを提供しあって、全体としてうまく機能している。生態系も、相互サービスのネットワークと考えられる。共生や利他行為というと、倫理的な人文主義のように感じること自体が、近代合理主義の、過度に論理的で、人間中心に歪んだ自然観なのだろう。個体や個性・専門性が集団としてうまく機能するためには、相互サービスのネットワークが、必要不可欠なのだと思われる。本論全体で、うまく機能することを、「廻(まわ)る」と表現している。「廻る」表現は、2項対立のトレードオフから、文明論的に(思想の深い部分において)決別するための決意表明でもある。

近未来の廻るAI技術を、データサイクルとして、データ中心に廻す社会的なデータサービスとして実現することを構想している。生活に役立つデータサービスは、経済データや健康データのデータサービスであって、個体差に潜(ひそ)んだ意味を発掘する。しかも単純で簡潔なデータサービスでなければならない。単純で簡潔であるためには、経済データと健康データを統合して、様々な生活関連サービスを、天気予報のように、「予測」と「警告」で廻すことになるだろう。同時代の芸術家、大竹伸朗の『既にそこにあるもの』(ちくま文庫、2005年)は、宇和島の海岸でモノを拾い集め、変形・集積して作品とする表現活動の、絵日記のようなエッセイ集だ。「既にそこにあるもの」は、マルセル・デュシャン(1887~1968年)のいうレディーメイドであって、人工的なモノが、既に機能を失ったモノであって、自然にそこにある石ころではない。「既にそこにあるもの」を変形して組み合わせ、新しい表現を作り出す。その作品は、使用価値は全くないけれども、高価な美術品としての交換価値がある。新しい表現から何かを発見すること、その発見に時代を変えるほどの価値がある。

「既にそこにあるデータ」を利活用するデータサービスも、利用者が何かを発見して、時代を変えてゆくだろう。技術の変化が、ひとびとが耐えられないくらいの加速度をともなって、社会を破壊している現代においては、利用者が技術の変化に惑(まど)わされない新しい発見をして、社会を安定化することも、時代を「変える」大きな変化となる。例えば、人類の人口が減少する社会、もしくは、人口の減少と増加が地域の不均衡を生じる社会において、安定的に増減する人口変動や、地域のバランスを発見できれば、天気予報のように、人口の未来を予測したり警告したりできるようになる。そして、そのような社会の変化は、家庭や地域での、「既にそこにあるデータ」を利活用するデータサービスが廻るようになった時、自然にミクロからマクロへと「繰り込まれ」てゆくだろう。

廻るデータサービスは、廻るデータベクトルを発見することから始まる。データ解析の基礎を、「データ行列」とその固有値分解(または逆行列の近似法)として定式化する現在の数理統計学では、データベクトルの重要性が見落とされている。「データ行列」を、m変数xn個体(OBS:オブザベーション)とすると、データ行列の1行、m変数x1個体をデータベクトルと考えることもできる。しかし、どこからどの方向を向いたベクトルなのか全くわからない。個体識別変数(OBS)から固有ベクトルの方向と考えると、数理統計学との相性はいいけれども、固有ベクトルが個体数に依存しない程度に大量のデータが必要だし、変数が多いと、そもそも固有ベクトルの意味がよくわからない。特に、個体差が重要なデータ行列の場合、データ行列全体の誤差項以外にも、個体差に関係する変数の分布に依存する確率的な変動も考量することになり、データ行列を出発点とするのでは、固有ベクトルの意味は全くわからなくなってしまう。おそらく話は逆で、まずは固有ベクトルの意味が理解できるように選択された変数と個体について、データベクトルを定義してから、データ行列全体を解析する。個体差を含む統計モデルをあらかじめ仮定するのが、ベイズ流の考え方で、コンピューターの性能が向上して、現実的な計算が可能になった。ベイズ流の考え方を推奨しようとしているのではなく、個体差という局所的なデータベクトルの意味をよく考えてから、ベイズ流の漸近的な計算を機械学習に応用しようとしているだけだ。統計解析ではなく、統計解析の前処理として、データの機械学習について考えている。

小学生の学力を、数字で表現すると、序列を作ってしまうので、言葉による表現のほうが、教育的には望ましいという議論があるそうだ。筆者も、教育改革が必要と考えているので、教育現場の意見として重要だと思う。しかし、数には順序を表現する機能と、量を表現する機能があって、その両方の機能を併せ持った最も強力な数が複素数であることも、忘れないでもらいたい。学力を複素数で表現すれば、複素数の位相が廻るようになるけれども、意味不明になる。学力は数というよりも、データとして使われるので、学力のデータベクトルを考えて、廻るデータベクトルとすれば、画一的な序列とはならずに、言語によるあいまいな表現に頼る必要もなくなる。学力というと、力による序列をイメージしてしまうので、データベクトルの場合は、積分形式で「学ぶポテンシャル」とでも言い換えるほうがよいだろう。最近では、精神疾患で学力と同様な問題がある場合、「xxスペクトラム」という表現も見受けるようになった。データベクトルをスペクトル変換するイメージは、固有値分解や特異値分解にも近いので、大変有望なのだけれども、現在の「xxスペクトラム」は、単に多変数にしたデータベクトルでしかない。廻るデータベクトルに至る道が見えてきたとしても、廻るデータベクトルが実用的に認知されるまでの道のりは長い。

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトOrangeでみんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、Orangeにフェノラーニングを実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す