山口行治(やまぐち・ゆきはる)
株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
◆IBMクラウドの概要
前回の「IBMクラウド実況中継(その1)」(『みんなで機械学習』第63回、https://www.newsyataimura.com/yamaguchi-146/ )では、SPSS Modelerを早く使ってみたいと先を急いだので、IBMクラウドについては、ユーザー登録の実況中継だけで、肝心のIBMクラウドというサービスの全体像は説明していなかった。実際には、IBMクラウドのサービス内容が膨大であるため、現在でも全体像はよくわからない。現時点でIBM Cloudカタログには、264製品が登録されている。
IBMクラウドで提供される製品カテゴリー別では、計算(49)、コンテナー(13)、ネットワーキング(34)、ストレージ(27)、エンタープライズ・アプリケーション(10)、AI/機械学習(28)、分析(15)、データベース(18)、開発者ツール(18)、ロギングおよびモニタリング(5)、マイグレーション(21)、統合(14)、セキュリティー(33)、モバイル(5)で、合計290となる。製品カテゴリーには多少の重複がある。AI/機械学習カテゴリーの製品では、IBM社が17製品、IBM以外が11製品ある。
「みんなで機械学習」して、機械学習を脱学習する教材であるSPSS Modelerは、watsonx.ai StudioというIBM製品に含まれる。学習用のsmall dataは、前稿で紹介した統計の教科書が提供している。実務では、自社で機械学習用のデータを作成することになる。SPSSはデータマネジメント機能が充実している。
しかし、解析用データベース(DB)のデータ品質(データ定義など)を前提としているため、生データから解析用データベースを作る段階は、別の製品を使うことになる。センサーデータなど、大量の計測データを取り扱うのに便利なMongoDBという、NoSQL-DBの業界リーダーであるオープンソース製品が、IBMクラウドで提供されている。データベースシステムをMongoDBから直接構築するのは、データベース専門家の仕事だ。
本稿では、watsonxの機械学習用のDB作成に特化したKnowledge Studioを紹介する。今後のIBMクラウド実況中継では、SPSS Modeler、Knowledge Studio、MongoDBを作業内容に応じて、使い分けることにしたい。
クラウドサービスを使い慣れていない読者の皆様には、クラウドサービスを使うための最も基本的な説明が必要かもしれない。クラウドサービスは、パソコンやスマホのWebブラウザーとサーバーが連携して動作するコンピュータープログラムだ。ホームページの閲覧や検索で使っているソフトなので、操作は慣れているだろう。見かけも、ほとんどホームページと変わらない。しかし、プログラムの実行ボタンを押せば、実際にサーバーでプログラムが動作して、実行結果がブラウザーに表示される。通常は動作がとても速いので、ホームページの別のページに移行した感覚になる。
いろいろ注意点があるけれども、特に最初は、ブラウザーのCookie設定に注意する必要がある。Cookieは、ホームページの閲覧では、広告追跡機能程度にしか使われないけれども、クラウドサービスでは、クライアント側の端末とサーバーが自動的にコミュニケーションするために使われる場合が多い。使い慣れると、ブラウザーがクラウドサービスのURLを学習して、サーバーでもユーザー端末の状態を学習するので、Cookieの問題は少なくなるはずだ。機械は、いつでもどこでも学習している。
〇IBMクラウド実況中継-2 Knowledge Studio
Knowledge Studioを使うためには、IBMクラウドでサーバーの場所や言語など、最小限の設定をする必要がある。筆者は無償サービスの範囲で使い始めている。まず、Workspaceに適当な名前を付けて作成する。この段階で、上図のような画面になる。Knowledge Studioでは、様々なドキュメントをアップロードして、専門用語辞書を作成する、知識ベースを作成するなどの、テキストベースでの作業を自動化できる。これらの機能は、6月30日以降は、IBMクラウドの他のサービスに移行することがアナウンスされている。機械学習のための前処理では、複数の作業員によるタグ付け作業がサポートされている。今後は、機械学習用の機能が中心になるのだろう。
Knowledge Studio のHELPには、練習用のデータが添付されている。en-klue2-types.jsonという1.125KBのファイルだ。機械学習では、ホームページなどのドキュメント類も「データ」として取り扱われる。ドキュメントのように、複雑な構造で、構造が統一されていない「データ」は、ExcelのCSVファイルなどでは取り扱いにくい。
XML形式でのデータ記述が推奨されたことがあるけれども、最近ではより手軽な、JSON(JavaScript Object Notation)形式でのデータファイルが普及している。CSVとJSONのどこが違うのかなど考えるよりも、JSON形式のデータに慣れるほうが速い。MongoDBは、JSON形式のデータを取り扱うデータベースシステムだ。Knowledge StudioもJSON形式のデータ(ドキュメント)を標準にしているので、MongoDBで開発されている可能性が強い。ユーザーの立場では開発言語はどうでもよいのだけれども、MongoDBを学習するためにも、同じドキュメント中心で、JSON形式のデータを取り扱うKnowledge Studioは役立つだろう。
実務における生成AI(人工知能)の活用では、当日の医療記録から関連する医学文献(PubMed)を検索して要約し、翌朝に医師に配布するサービスが、米国の病院で成功している。この場合も、医学文献をJSON形式でダウンロードしている。化学情報(PubChem)でもJSON形式の検索とダウンロードがサポートされているので、化学データの機械学習にも挑戦してみたい。
◆閑話コラム記事3 成長と充足の資本主義
経済成長を前提とする資本主義は、際限のない欲望の資本主義となってしまった。日本や多くの先進国の人口が減少するのは、ひとびとが「欲望」だけではなく、自然の摂理に従っていることを示している。自然の摂理というと宗教的だけれども、食欲や性欲であっても、欲望には充足感があるという意味だ。権力欲や金銭欲が例外で、充足感が伴わない価値による経済システムは、自然の生態学的なシステムとは異なって、人工的な天動説の経済システムでしかない。
脱成長の資本主義や社会主義であっても、「充足」する価値を見失えば、強権的な管理社会でしかなくなる。地球上の動物たちや植物たちがいとなむ、自然な生態学的システムとはいいがたい社会になってしまう。人間だけが特別なのではなく、特別に愚かな人間は、自然の摂理に従って絶滅するしかない。
「充足」することは、複雑な問題の最適解を求めることではない。「充足」する状態や場所の安定性が重要になる。微分方程式における解の安定性を議論するためには、解となる関数を複素数化することが有力な手段となる。複素数であれば、解の周辺という概念が自然に可視化できるからだ。筆者のように「強い」実在論者としては、複素数も実在していて、生物が「充足」するときに、複素数の世界を感じているのだと思う。複素数の世界は、波動の世界でもあるので、波動の位相を感じていたとしても不思議ではない。
成長の資本主義は実数の世界で、充足の資本主義が複素数の世界であると仮定しよう。経済システムが安定しているという「価値」の実態は、実数の世界では理解不可能で、複素数の世界で、経済的変動の位相を制御するというイメージが近い。このように難しい問題になると、特別に愚鈍な人間ではなく、経済的変動をオルタナティブデータでとらえる、俊敏な機械学習に頼るしかなさそうだ。リアルタイムのオルタナティブデータは、すでに株式市場で実働しているシステムなので、その実数の世界から複素数の世界にイメージを広げて、充足しながら成長する、円熟した資本主義の経済価値を見いだしたいものだ。
多様で予測困難な市場のマザーツリー(書籍紹介記事:『みんなで機械学習』第17回、https://www.newsyataimura.com/yamaguchi-87/ )が資本主義社会を守っているのかもしれない。
◆閑話コラム記事4 クオリティー・バイ・データ
日本が経済大国だった時代もあった。国内市場は人口が減少し、産業製品の国際競争力が落ちている。筆者として、最も問題だと思うのは、ジャパン・クオリティーといわれていたトヨタですら、品質問題を問われていることだ。東京電力の原子力発電所におけるリスク管理や品質管理が、衰退したジャパン・クオリティーと見なされる時代になってしまった。
統計的品質管理の時代には、ボトムアップのジャパン・クオリティーが通用しても、クオリティー・バイ・デザインの時代では、トップダウンの欧米に遅れてしまった。自動車産業や製薬産業でも、欧米のクオリティー・バイ・デザインのまねをしているだけなので、ボトムアップの工程管理が衰退して、自主的には、品質問題を防止できなくなってしまった。
AI時代には、クオリティー・バイ・データを提案したい。センサーのデータをリアルタイムに機械学習して、品質管理やリスク管理を行う。世界的にみても、先進的な取り組みになる。例えば、原子力発電所の津波が予想できるかどうかといった科学的に無意味な議論ではなく、津波を気象衛星で観測したリアルタイムのデータから、その破壊力を推定して、短い時間の間に機械的に対処しうる対策をあらかじめ考えておくという考え方だ。地震で停電したとしても、短い時間であれば、遠隔操作や自律ロボットによる対応が可能だ。
工程管理の場合は、センサーデータによる全数検査が前提となって、不良品をリアルタイムに抜き取り検査する。ロット単位にランダム抽出する現在の品質管理よりも、信頼性と経済性が向上する。権威主義的な認証ビジネスにAIを導入するのではなく、機械との機械学習で共進化する、現場からのクオリティー・バイ・データに期待したい。
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)
コメントを残す