山口行治(やまぐち・ゆきはる)
株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
◆SPSS Modelerで機械学習
IBMクラウドに登録すれば、高度な機械学習を無償で使い始めることができる。IBMクラウドのAI(人工知能)ビジネスは、watsonxにまとめられていて、複数のサービスがあるけれども、最初はwatsonx.aiを選択するとよい。
watsonx.aiでは、SPSS Modeler、Pythonの開発環境やLLM(大規模言語モデル)など、とても充実していて、急速に発展している。初心者にとって、機械学習を無償で学習するサービスとしては、SPSS Modelerがお勧めだ。サンプルデータを含むサンプルプログラムも10個程度提供されている。
しかし、サンプルプログラムのデータの全体像や詳細な内容を理解することが困難だった。そこで、前稿(『みんなで機械学習』第62回、https://www.newsyataimura.com/yamaguchi-145/ )では、機械学習の学習と、交通事故の脱学習をめざして、警察庁から提供される交通事故統計情報のオープンデータ(https://www.npa.go.jp/publications/statistics/koutsuu/opendata/index_opendata.html)を使うことを計画していた。
〇交通事故の個体差としての表現
交通事故統計情報のオープンデータは、データ定義がしっかり記述されていて、使いやすいように思われた。しかし、そのデータ定義の詳細を調べてみると、車に関するデータがほとんどないことに驚いた。特に、車種やメーカーのデータが一切ない。交通事故は、ヒト(運転者と事故被害者)、車、道路が主要な要因なのに、車のデータが<故意>に隠されている。
インターネットで調べてみると、車と運転者の詳細なデータは、保険会社が会社ごとにデータベース化している。車のデータ、特にエアバックと連動して事故発生時の車の状態を記録するEDR(イベント・データ・レコーダー)は自動車メーカーと保険会社が利用しているらしい。EDRは飛行機のフライトレコーダーのようなものだけれども、EDRのデータは全く公開されていない。警察はEDRデータを収集しているのだろうか。交通事故統計情報のオープンデータは、薬剤情報が無い薬害データのようなもので、道路を改良して、交通事故を少なくするという、非常に限定された目的でしか利用できそうもない。
このように極端に利用目的が限定されたデータを公開して、どのような意味があるのか疑わしい。様々な観点(立場の違う人びと)からのデータ利活用を推進するオープンデータとはいいがたいものだった。
そもそも、交通事故のデータに個体差があるとしても、その個体差を「少なくする」ことがデータを利活用する重要な目的であるため、個体差の表現が増幅されたデータを前提とするフェノラーニング®の方法とは相性が良くないことも理解できた。
交通事故の個体差は、運転者の個体差と車種の個体差によって「増幅」されていることは確実だ。保険会社は契約者を母数として、交通事故の内容から、交通事故における運転者と車種の個体差をデータで定量的に把握している。事故発生確率から、保険料をアルゴリズムで算出して、契約者ごとに調整している。
しかし、実際はそのアルゴリズムがどの程度合理的なのか、データが公開されていないので、誰もチェックできない。交通事故における運転者と車種の個体差を理解した後に、道路構造などによって交通事故を減少させる対処が求められているはずだ。交通事故の総数が減少しても、高齢ドライバーの交通事故が増加する道路構造では、社会や時代の変化には対応できない。警察庁は交通事故対策の脱学習が必要だ。
〇スモールデータ・アプローチ
警察庁の脱学習が容易に実現できるとは思えないので、もっと過去記事に遡(さかのぼ)って、『みんなで機械学習』第28回「データでサイン」(https://www.newsyataimura.com/yamaguchi-100/)で考えた「スモールデータ・アプローチ」の教科書(※参考1)を学習教材として利用することにしたい。アルツハイマー病患者のデータで、250人程度のデータであるため、取り扱いやすい。
教科書には統計解析言語Rによる解析方法と解析結果が記述されている。RプログラムをSPSSプログラムに変更しても、解析結果自体は変わらない。解析結果の解釈は、プログラムによって多少異なる可能性があるので、脱学習の話題も提供できるだろう。
〇IBMクラウドの設定(実況中継-1)
クラウドサービスに慣れていれば、IBMクラウドの設定は簡単なのだろう。筆者はPC世代で、仕事の大半はPCで行い、特殊な機能だけをクラウドで使用してきた。
筆者の経験からは、IBMクラウドのようなソフトウェア開発を主目的とする汎用(はんよう)クラウドサービスは異文化だ。Google cloudやMicrosoft Azure、Amazon Web Services (AWS)、Salesforce クラウドの全てにアカウント登録した経験があるけれども、無料の体験コースだけで、使いこなす段階には至っていない。IBMクラウドのユーザーアカウント登録時に、キャッシュカード情報を入力するため、登録後の使用では、無料サービスの範囲での使用であることに注意する必要がある。
IBMクラウドのアカウント登録は問題が無かった。その次の段階で、watsonx.aiサービスを使用できるようにする作業には手間取った。無料サービスの範囲では、watsonx.aiのインスタンス(クラウドサービスの実態)は1つしか使えない。最初に間違えて、米国ダラスのサーバーにwatsonx.aiのインスタンスを作って(デフォルト設定)作業を始めたのちに、問題に気がついて、東京のサーバーにwatsonx.aiのインスタンスを作ったら、2つ目のインスタンスとなってしまい、うまく動作しなくなった。
watsonx.aiサービスにログインした後にも、操作を間違えると、無料サービスの範囲を超えて、たくさんのリソースが追加されることがある。無料サービスであることを最初に設定しているので、もちろん動作はしない。しかし、そのエラーメッセージが理解できない。
例えば、ブラウザーのCookie設定の問題がエラーとなって、Cookie履歴を全てクリアしないと正常に動作しなかったりする。結局は、間違えて作られた余計なリソースをすべて削除して、Cookie履歴もクリアして、最初から、東京サーバーでwatsonx.aiを使う設定を行ってから、SPSS Modelerが正常に動作するようになった。
現在では、IBMクラウドにログインしないで、直接、watsonxにログインしている。上図がSPSS Modelerのフロー図で、やっと作業が開始できるようになったことを示している。
次回からは、SPSS Modelaerのフロー図を使って、教科書(※参考1)の解析手順を再現してみよう。
◆閑話コラム記事1 劇中劇のR&D
ビジネスにおける成長戦略は、研究開発(R&D)投資か企業合併・買収(M&A)が代表的で、研究開発型のベンチャー企業のM&Aは広義のR&D投資と考えることもできる。国家レベルでの経済成長戦略においても、技術革新(イノベーション)が最重要課題だ。R&D投資は、継続的な生産性の向上とは別次元の、リスクを伴う新規技術への投資であって、R&D投資の投資戦略は、企業文化や産業構造に依存して多様であり、R&D投資戦略自体が研究対象になりうる。
R&D投資戦略の技術イノベーションは、R&Dの劇中劇のようなものだ。生成AIに限らず、AIの技術革新が、R&D投資戦略の技術イノベーションを加速して、R&D投資が大型化している。筆者としては、小型でもリターンが大きいR&D投資には、フェノラーニング®などの、スモールデータの機械学習が有用と考えている。
◆閑話コラム記事2 成長と充足(エッジ&ニッチ)が入れ子になったネットワーク社会
エッジ&ニッチについては、「ニュース屋台村」に寄稿するようになった2017年から(https://www.newsyataimura.com/yamaguchi-112/)、愛と冒険の物語など、さまざまなバリエーションで言及してきた。
エッジ&ニッチを「成長と充足」と読み替えてみよう。脱成長ではなく、成長しながら充足する、成熟した社会を考えている。主観性が強くて宗教的な幸福感ではなく、生活における満足感や、生理現象における適度な充足を求める社会だ。とめどない欲望の資本主義が生み出す経済成長には限りがあることは自明であっても、その代替案として、円熟する社会の入れ子構造による動的な安定性については、あまり議論されていない。
筆者はライプニッツの「充足理由律」には批判的で、ライプニッツはスピノザのエチカにおける充足感を理解できなかったので、近代文明の強欲な成長神話を導いてしまったと考えている。
※参考1:「DATA ANALYTICS – A Small Data Approach」(SHUAI HUANG and HOUTAO DENG, CRC Press,2021)
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)
コメントを残す