信頼できないデータと共に生きる
『データを耕す』第8回

6月 01日 2017年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

在野のデータサイエンティスト。元ファイザーグローバルR&Dシニアディレクター。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。職業としては認知されていない40年前から、データサイエンスに従事する。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

東京電力福島第一原発事故の時、政府が発表した放射能汚染のデータが信頼できないという実感を持った国民は多かったはずだ。正確な測定結果のはずなのに、なぜ信頼できないのだろうか。筆者は新薬の臨床試験データを政府に申請する仕事をしてきた。データの入力間違いはあるかもしれないけれども、意図的にデータを改ざんしたことはない。それでも、単純にデータを信じてはいけないことをよく知っている。

山や海で自然を楽しんだり、自然の恐ろしさを実感したりしたことがあるだろう。しかし、自然を信頼したことはないはずだ。AI(人工知能)技術やビッグデータの時代になって、データはコンピュータにとっての「自然」となる、その意味を本稿「データを耕す」で問い続けて8回目となった。データはコンピュータにとっての「自然」なのだから、データを楽しんだり恐れたりすることはあっても、信頼はできない。コンピュータと共に生きる時代は、信頼できないデータと共に生きるということだと思う。

近代の科学のように、データで真偽を議論する時代があった。科学的なデータを信頼できなくなったのは、トランプ大統領1人の責任ではない。AI技術やビッグデータの時代では、真偽や善悪よりも、勝敗や損得が優先されるということも、本稿で繰り返し述べてきた。勝敗や損得が優先されると、データは信頼できなくなる。勝敗や損得はゲームやビジネスには大切であっても、人の生死や人類の未来を勝敗や損得で評価することはできない。信頼できないデータと共に生きてゆくしかないのだとしたら、どのようにデータとつきあうのだろうか。少し話題は古いけれど、「フィッシュ!」という職場環境改善プログラムをご存じだろうか(※参考1)。活(い)きの良い「データ」であれば、「フィッシュ!」のように楽しく一緒に働いてみよう。未来の糧を求めるのであれば、「データを耕して」新しい技術の種をまいてみよう。

◆活きの良いデータ

データだけではない、統計も信頼できないと感じている人も多いだろう。信頼できない企業がまとめたデータを、どのようにして信頼してもらうのだろうか。臨床試験における統計の手法は明快だ。新薬が偽薬(プラセボ)と全く同じ薬効しかないと仮定して、その仮定が実際に得られたデータからはほとんど起こりえないことを統計的な手法で証明している。新薬と偽薬は同じ薬効であると仮定して、患者と医師の両方が薬の内容をわからないようにして(昔はダブル・ブラインドと言っていたが、ブラインドは差別用語ということで、マスクドという)、無作為に割り付ける方法でデータを収集している。

薬の副作用に関しては、副作用があるという立場でデータを収集する。すなわち、副作用ではないということを合理的に説明できない限り、全て副作用と考える。例えば、服薬していて交通事故を起こした場合、有害事象として報告し、事故の原因が明確でない限り、副作用と考える。実際に、眼の副作用である色覚異常のため、赤信号が青に見えたという副作用報告を、職務として経験したことがある。

データそのものは信頼できないから、データを収集するための仮定をデータによって否定することで、否定された仮定を信頼する仕組みだ。原発の放射能汚染の場合はどうだろうか。原発推進派は大きな汚染が無いことを前提にデータを収集して、反原発派は大きな汚染があることを前提にデータを収集して、それぞれが自分の仮定に矛盾のないデータを発表している。データを収集する仮定そのものが違うのだから、科学的な議論にはなっていない。

データも、活きの良いデータは品質が良い。臨床試験データに関して、米国食品医薬品局(FDA)は品質要求事項(ALCOA原則、※参考2)をまとめていて、活きが良いこと(Contemporaneous)が大切な 品質基準となっている。欧州連合(EU)の審査当局も基本的にはFDAと似た考え方だけれども、日本の審査当局である医薬品医療機器総合機構(PMDA)は正確性(Accuracy)を偏重してきた。そうすると、何年も前の活きの悪いデータが新薬の申請資料に大量に含まれていた時代があった。正確性(Accuracy)はALCOA原則の最後の品質要求項目ではあるけれども、活きの悪いデータが、不必要なまでに正確であっても、信頼できるデータとは言えないだろう。

ALCOA原則は審査当局にとっての品質要求事項であって、患者さんや医師にとっての品質要求事項ではない。例えば遺伝子データなど、ビッグデータの時代では、国家によるデータの品質管理だけでは不十分で、患者自身の問題として品質要求が求められる。患者の立場から言うと、新薬と偽薬は同じ薬効であるという仮定はありがたいものではない。臨床試験では、薬剤治療以外の医療は全て最高水準の医療を提供するという仮定もある。例えば、診断の品質は患者にとって大切なもので、診断が最高水準であることを分かりやすく説明してもらいたいものだ。

◆データサイエンティストの光と影

データにとことんこだわる職業がデータサイエンスだ。データ解析だけではなく、前述のようなデータの品質管理もデータサイエンティストの仕事となる。欧米では、とても素敵な職業(※参考3;英語版はSexiest job)と見なされているらしい。日本における臨床試験においても、データサイエンティストの役割は十分に認められている。しかし、医療は医師がコントロールして、審査は国がコントロールしているような、上下関係で役割分担が行われている場合、データサイエンティストは最下層の職業となる。チーム医療やチーム審査であることを願いたいけれども、必ずしもその願いはかなわない。患者は自分の命とお金を使っているのに、患者さんのデータであることをよく理解できているデータサイエンティストは少ないし、少なくとも日本の臨床試験の世界では、患者中心の医療とは程遠い現実がある。

日本のデータサイエンティストは、最下層で低賃金・重労働を強いられている。活きの良いデータで、魚屋のように元気に「フィッシュ!」をしよう。ビッグデータの時代では、活きの良いデータが大漁となり、ほとんど無料で入手できる。日本政府が世界に先駆けてIoT(Internet of Things、あらゆるものをインターネットにつなげる技術)データの売買市場を整備する計画があるらしい(※参考4)。データを入手できなければ、データサイエンティストの仕事は成立しないので、データを売買する市場は歓迎したい。しかし、健康関連のデータの場合、データは個人のものであることに留意して、データを提供する個人にとってメリットのあるような制度設計が望まれる。そういう時代が訪れることを楽しみにして、活きの良いデータ・フィッシュ!で楽しく仕事をしよう。

◆データ・フィッシュ!をサポートするAI技術

政府の未来投資会議(※参考5)では「少子高齢化に直面する日本は、失業問題を恐れずに人工知能やIot、ロボットなどを存分に活用できます」という状況認識で、「健康寿命の延伸」を戦略分野の1番目に挙げている。日本の企業で働いているデータサイエンティストは、数少ないのに老齢化し、重労働で後輩の育成もできていない。大学など、若い世代のデータサイエンティストの育成プログラムは盛んだが、実務で活躍するまでに、現役世代と5年から10年のギャップができてしまうだろう。そこで「データ・フィッシュ!」を楽しんだり、「データを耕す」ことをしたりするために、具体的な提案をしてみたい。

「健康寿命が延伸」するのだから、老齢化したデータサイエンティストが楽しく働く環境を整備してはどうだろうか。最新鋭のデータサイエンスではなく、円熟したデータ解析を職業訓練して、国家資格とするのだ。企業のデータサイエンティストは米国の統計解析ソフトSASを使っている。SASのプログラミングスキルはSAS社が資格試験を実施しているけれども、高価で若い人が有利な資格となっている。

英国のWorld Programming社はWPSというSAS言語の実行環境を提供している。SASとWPSは米国で裁判となっているが、EUではWPSの主張が認められている。日本の高齢者用職業訓練としてSASがよいのかWPSでもよいのか、どちらでもよいので高齢初心者用の学習コースをつくって、データ解析実務の国家資格とする。国家資格とはいっても、統計検定のような高度なものではなく、「データ手芸コース修了者」といった感じだろうか。

AI技術の応用として、高齢者の介護ロボットなどが注目されているけれども、健康寿命とは矛盾していないだろうか。高齢者の学びの場をAI技術でサポートするほうが前向きだと思う。

◆公共データのデータ・ライブラリー

上述の未来投資会議では、「公共データを、民間ニーズの高い分野で徹底的に開放していきます」と述べられている。公共データは、まず公共利用を推進しよう。高齢初心者のデータサイエンス・カルチャークラブ「データ手芸コース」に活きの良い公共データを提供してもらいたい。公共データのデータ構造を習得し、公共利用ができるようになった受講者は、民間ニーズにも対応できるので、職業訓練として成立している。

日本には国連大学もあるのだから、国連大学のデータ・ライブラリーを推進してはどうだろうか。データ・ライブラリーにアクセスする資格は、「データ手芸コース修了者」といった感じで、運転免許証を個人のIDにするようなものだ。

コンピュータシステムのセキュリティに関して、犯罪者は高度な知識を有しているし、専門のビジネスもある。データのセキュリティはデータサイエンティストの領域だ。例えば、個人データ保護法で匿名加工情報が定義されている(個人情報保護法第2条9項)。匿名加工情報の作成の方法について、経済産業省がマニュアル(※参考6)を発表しているけれども、国勢調査の個票を利用する場合の匿名化の方法(※参考7)と比べると明らかに見劣りがする。本稿第7回に紹介した、仮想集団の方法は匿名化という意味ではさらに進歩している。公共データはまず公共利用を推進して、匿名化などの技術的な問題を多数のデータサイエンティストにより実務経験してから、民間利用することが望ましい。

◆「データを耕す」ための公共データ

「データを耕す」ためには、高度な統計解析ソフトは不必要だ。しかし、ある程度大量のデータも処理するので、MS-EXCELでは不安になる。本論ではSASもしくはWPSを使うことを提案した。筆者はSASを1979年バージョンから使っている。特に85年のバージョンは気に入っていた。85年というと、マイクロソフトのWindowsがリリースされた年であり、SASはそれよりも年寄りということになる。

「データを耕す」ために公共データが利用できると、とてもうれしい。公共データを利用する場合、住所が重要で、国勢調査のメッシュ統計(経緯度に基づいて地域を網の目〈メッシュ〉の区域に分け、それぞれの区域に関する統計データを編成したもの)と連携した健康・医療データは、「データを耕す」最初のステップになるだろう。行政的な都道府県単位ではなく、メッシュ統計であれば地理データとして、空間統計が使えるからだ。気象変動のデータとも連携できる。

信頼できないデータであっても、多くの公共データと連携してゆくと、豊かな「自然」の力で、「新しい技術」の冒険に役立つデータとなるだろう。「新しい技術」を見つけ出すのも、特許データという公共データを丁寧に耕すことから始まる。特許庁の特許データベースは、日本の特許だけではなく、米国特許や中国特許の日本語抄録も含むので、日本語で検索できる。しかし、コンピュータにとって特許をデータとする場合、英語のほうが日本語よりも自然言語処理が容易になる。むしろ日本の特許を翻訳して英語化し、中国、世界特許も含めて公共データとして整備してもらいたいものだ。大企業は商用の国際的な特許データベースを購入しているけれども、中小企業ではそのようなゆとりはない。このようなデータの場合は、インターネットで公開する必要はないけれども、公共データのデータ・ライブラリーのような特別な場所で、研究目的に自由に使えるようにしてもらいたいものだ。

信頼できないデータを非難するのではなく、データと共に生きてゆくための提案をまとめてみた。政府の未来投資会議のように、データサイエンティストを投資の対象として見るのではなく、データと共に生きる「愛と冒険」の物語の始まりとして再考してもらいたい。

参考1:「フィッシュ!」本の紹介
http://masakokawasaki.com/mt/2011/07/post-62.html

参考2:ALCOA原則
・Attributable:誰が記載したものかわかる(具体的には、記載者の署名がある)
・Legible:第三者が読める、そして理解できる記録になっている。
・Contemporaneous:診察後すぐ記載されたことがわかる(具体的には、記載日の記載がある)
・Original:First Recordである。複製を行った場合には、複製したことを保証する記録も合わせて残されている。
・Accurate:記載内容に誤りがない
http://www.jpma.or.jp/medicine/shinyaku/tiken/allotment/pdf/medical_training_27.pdf

参考3:「いま最も必要とされているプロフェッショナル データ・サイエンティストほど素敵な仕事はない DIAMOND ハーバード・ビジネス・レビュー論文」、トーマスH.ダベンポート (著), D.J.パティル (著), DIAMONDハーバード・ビジネス・レビュー編集部 (編集)

参考4:「IoTデータ売買市場 20年にも 国内100社、企業向け 新サービスに活用」、2017/5/23付日本経済新聞 朝刊

参考5:未来投資会議、平成29年5月30日
http://www.kantei.go.jp/jp/97_abe/actions/201705/30mirai.html

参考6:「匿名加工情報作成マニュアル」経済産業省
http://www.meti.go.jp/press/2016/08/20160808002/20160808002-1.pdf

参考7:「国勢調査の匿名データについて」総務省統計局統計調査部
http://www.stat.go.jp/training/2kenkyu/pdf/gakkai/jinko/2013/nemoto.pdf

※『データを耕す』過去の関連記事は以下の通り

第7回 「仮想患者」と「仮想医師」
http://www.newsyataimura.com/?p=6626

第6回 コーディングの魔術と「辞書の国」
http://www.newsyataimura.com/?p=6541#more-6541

第5回 本当は怖い「データの森」
http://www.newsyataimura.com/?p=6541#more-6541

第4回 表現型としての個体差、哲学からデータサイエンスまで
http://www.newsyataimura.com/?p=6478#more-6478

第3回 量子コンピュータはサイコロを振る
http://www.newsyataimura.com/?p=6410#more-6410

第2回 FDAがAI画像診断システムを承認、遺伝子検査もAIにしたら
http://www.newsyataimura.com/?p=6355#more-6355

第1回 自動運転車は何馬脳なのか
http://www.newsyataimura.com/?p=6319#more-6319

番外編第3回 フランスの体重計を買った
http://www.newsyataimura.com/?p=6585#more-6585

番外編第2回 日本科学未来館に行ってみた
http://www.newsyataimura.com/?p=6480#more-6480

番外編第1回 恵比寿映像祭の「ポピー:アフガン・ヘロインをたどって」 http://www.newsyataimura.com/?p=6379#more-6379

コメント

コメントを残す


三 + = 12