表現型としての個体差、哲学からデータサイエンスまで 『データを耕す』 | ニュース屋台村

表現型としての個体差、哲学からデータサイエンスまで
『データを耕す』第4回

3月 23日 2017年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

在野のデータサイエンティスト。元ファイザーグローバルR&Dシニアディレクター。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。職業としては認知されていない40年前から、データサイエンスに従事する。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。

最近流行のAI(人工知能)技術は自動運転で、「データを耕す」第1回で取り上げた。しかし、AI技術が本当にヒトの生活を変えてしまうのは、法律のリーガルテクノロジーと医療のメディカルテクノロジーだと思う。法律や医療のような、高度な専門知識をAIでサポートする技術はすでに実現している。熱力学の発展とともに、産業革命が「ヒトの生活」を根底から変えたように、AI技術によって、法治国家の在り方や、病気や個体差に関する考え方が、「ヒトの生活」を破壊的な未来へ導くのではないかと危惧(きぐ)しながら、それでも現在の多くの問題を解決することを期待している。

◆テロリストを捜し出すプログラム

多数の監視カメラや人工衛星の画像をコンピュータが自動的に解析する社会はすでに始まっている。先進的なAI技術で無反省に実現されているのは「悪人」(テロリスト)を探し出すプログラムだ。画像解析プログラムはデータ(犯罪歴)から自動的に生成されるため、ヒトは判断の「意味」を理解することができない。法律は言語を論理的に取り扱う技術が基盤となっている。法律においても、データに関する統計的な判断が重要視される時代になっているけれども、データの利用はあくまで論理的な意味を理解できる範囲に過ぎない。しかし裁判所に容疑者が来る前の段階で、AIが「悪人」を捜し出しているとしたら、法治国家はどのように変わってゆくのだろうか。

本稿を書いていたら、日本の最高裁が「GPS(全地球測位システム)捜査がプライバシーを侵害している」という判断を下した。新たな法整備が必要という最高裁判決の趣旨は分かるけれども、法整備をしているうちに、犯罪者はGPSを警察よりもっとうまく活用するだろう。法律作成にAI技術を活用しないと、法律が技術の進歩についていけなくなる。たとえ犯罪者のデータであったとしても、個人のデータは個人のものであり、国家や巨大企業が独占すべきではない。しかしデータが無ければ犯罪を立証できないのだとすれば、問題はデータを得るためのコストだと思われる。GPSを使えば、警察官による尾行よりもはるかに安価に正確なデータを入手できる。税金を節約する意味では歓迎だが、そもそも裁判所に提出される「データ」を得るためにどの程度のコストがかかっているのか、国民や裁判官は全く理解できていない。「私立探偵シャーロック・ホームズ期待論」について、別稿で考えてみたい。

◆医療におけるAIプログラム

メディカルテクノロジーではAI技術がどのように使われるのだろうか。「データを耕す」第2回で画像診断の話を紹介した。「悪人」を病変部位と読み替えれば、AI技術としては類似している。医療ではコストが問題となるため、AI技術による画像診断が専門家と同程度の正確さであっても、経済的に有利であれば医療機器として承認される時代になっている。
一方で、認知症発症リスクの遺伝子診断のように、正解がない・確率的にしか評価できない場合には規制の対象となり承認のめどが立っていない。天気予報も数理的には正解がなく、確率的な評価しかできないけれども、技術(大量のデータを安価に収集する技術)の進歩により大いに役立つようになっている。

確率計算では分母の確かさが重要であることを「データを耕す」第3回で議論した。天気予報では宇宙からの地球規模の気象データが分母となることで、確率の意味が明確になっている。遺伝子データであっても、全人類が分母となれば確率の意味は明確になる。全人類からのランダムサンプリングができればそれも一案だろう。もちろんできないけれども、コンピュータ・シミュレーション技術で模擬的に作られたポピュレーション(模擬的患者集団)からのランダムサンプリングであれば可能かもしれない。遺伝子情報は比較的容易にシミュレーションできるけれども、患者さんの表現型として、性別、年齢、病態、予後、治療効果などもシミュレーションできるのだろうか。

◆表現型と遺伝子型

表現型は英語で「フェノタイプ」のことで、通常、個体がどのように見えるのか、遺伝子発現の結果を意味している。個体差の問題を深く考えた17世紀末の哲学者、ゴットフリート・ライプニッツは「モナドロジー」という難解な文章を遺(のこ)した。個体の哲学的な概念をモナドと表現して、モナドは全て等しく運命づけられているけれども、モナドの個体差は「表現」の問題であることを鋭く見抜いていた。

日本語で表現型と遺伝子型と考えるか、英語でフェノタイプとジェノタイプの問題と考えるかで大きく視点が異なることを指摘しておきたい。表現型は遺伝子発現の受動的な結果ではなく、まさに自発的に「表現」していると考えてみよう。最も代表的な表現型である「性差」は遺伝子型から見れば、XXかXYという染色体の遺伝子発現の結果のように見えるけれども、そもそもヒトのY染色体はX染色体よりもはるかに短く、独自の遺伝機構を持っている(※参考1)。

ヒト社会的にはホモやレズという家族概念への挑戦があり、生理的な意味で病的な患者さんも含めて、「性差」の表現型は単純ではない。薬理学的な意味での性差の多くは性ホルモンとの関係が重要であり、性ホルモンの分泌量は年齢によって大きく異なる。性ホルモンの種類は性染色体で決定されていても、成長や加齢といった性ホルモンの分泌を調整する因子は遺伝子全体の問題だ。

分子レベルで全てのDNAコードが解読されても、個体レベルで遺伝子発現調節の仕組みは、RNAワールドと呼ばれる複雑系と深い関係があるので、理解できるようになったという実感は100年以上未来の話と思われる。「性差」は遺伝子型からの理解にほど遠いとしても、「性差」は表現の問題だということは実感としてよくわかる。

◆薬効の個体差

現在の西欧医学では、薬が効くかどうか、副作用が発現しやすいかどうか(以下、薬効と略す)ということは大きな個体差があるため、統計学的によく計画された臨床試験の結果しか信頼できないという「世界像」(またはパラダイム)を無反省に受け入れている。筆者も30年間そういう仕事をしてきた。

医薬品に関連した遺伝子型を調べる「ファーマコジェネティクス」はDNA解析技術の進歩により急速に発展した。薬物分解酵素の遺伝子多型(※参考2)により、10倍以上の血中濃度の差を生じることもある。しかし、医薬品の歴史は100年程度だから、進化論的な淘汰(とうた)圧力とは無縁であり、ヒトにおける毒物代謝の進化論的な意味もほとんどわかっていない。ファーマコジェネティクスにより薬物の血中濃度を正確にコントロールしても、患者さん個人のレベルで薬効を正確に予測することは難しい。薬効の個体差が大きいという実感は、臨床試験のデータ解析をしていれば、疑いようがないくらい確かに感じられる。

筆者も30年間そう信じて仕事をしてきた。しかし最近、薬効の個体差は表現型の問題ではないかと考えるようになり、表現型をデータから推測する方法を試みている。例えば薬効の性差を遺伝的な(戸籍上の)性別ではなく、身長・体重・年齢・臨床検査値から推定された性別(女性の確率X%、男性の確率Y%)で計算してみたりしている。年齢も同様に、戸籍の年齢よりも、実際のデータから計算した年齢のほうが、薬効の予測には役立つ場合がある。小児の場合は『成長の個体差』(増山元三郎、みすず書房、1994年)という名著が同様の問題を取り扱っている。

薬が効くかどうか、副作用が発現しやすいかどうかという薬効自体も、患者さんや医師の言語表現としての「表現型」である場合が多い。「表現」には、微小な差異や正確には測定できない感覚を、増幅して区別する機能がある。こういった場合、測定値から表現型を推定することはとても困難になる。困難であっても、表現型を推定する問題だと割り切ってみると、案外、個体差は大きくはないのではないか、確率的な予測精度の問題に過ぎないように思われてきた。

◆薬効の確率的な予測精度

確率的な予測の予測精度を計算するためには、確率計算の分母が確かなものであることが不可欠だ。より正確には、確率モデルをフィットするときのモデル選択が説得力のあるものでないと、計算の根拠自体が失われる。模擬的患者集団をつくるコンピュータプログラムは、確率モデルの複雑さの程度はいろいろだが、すでに実現されている。こういった計算には「データを耕す」第3回で紹介したベイズ統計の相性が良く、最近のAI技術で大いに発展している計算手法を応用できる。

あなたが病気になったとき、あなたのアバターを作成して(模擬的患者集団)、あなたの薬効を予測できたとしたらどうだろうか。もちろん最初は予測精度が十分ではなく、薬が効く確率が95%信頼区間として、30%以上70%未満といった、効くか効かないかよくわからないような予測しかできないかもしれない。それでも、治療を開始してからでも、薬が効く確率が95%信頼区間として、20%以上40%未満と予測されれば、あなたは治療を中止して、もっと有望な治療法を試すだろう。

筆者の夢はパーソナライズド・クリニカルトライアル(個の臨床試験)を実現することだ。治療が「個の臨床試験」となることで、科学的なデータが集積され、予測精度はしだいに向上してゆく。素晴らしい未来であるかのようだが、代償はあなたの個体差だ。一生懸命「表現」しても、AIにまさにその表現を見抜かれてしまう。特殊な病気を医師が治療していた時代から、ありふれた体調の不具合をAIが予測(管理)するようになるとすれば、必ずしも喜んでだけはいられないだろう。

筆者はヒトの誕生と死亡を医師が判定する時代に違和感を持っていた。神父が同じ役割を演じていた時代もあった。教会や国家の権威で誕生日や死亡日を決定している。個人のデータは個人のものなのだ。AIの時代では生活データすらAIのものとなる。「データを耕して」個人のデータが個人のデータになるような、勝敗(損得)にこだわるAIとは別の次元で、真偽(善悪)の論理だけでは理解することのできない、ニッチ&エッジを模索したい。

参考1:Y染色体https://ja.wikipedia.org/wiki/Y%E6%9F%93%E8%89%B2%E4%BD%93

参考2:遺伝子多型http://www.m.chiba-u.ac.jp/class/pubheal/allergy_genetics/polymorphism.htm

※「データを耕す」過去の関連記事は以下の通り
第3回 量子コンピュータはサイコロを振る
http://www.newsyataimura.com/?p=6410#more-6410

第2回 FDAがAI画像診断システムを承認、遺伝子検査もAIにしたら
http://www.newsyataimura.com/?p=6355#more-6355

第1回 自動運転車は何馬脳なのか
http://www.newsyataimura.com/?p=6319#more-6319

コメント

コメントを残す