Graduate School of Informatics, Department of Informatics
世間には人工知能(AI)という言葉が溢れています.第三次AIブームとも呼ばれていますが,現代のAIは,大量の正解データを機械に学習させることで,学習に用いていない未知データを識別するというフレームワークを採用しています.これは大量の正解データが低コストで得られることを前提としています.たとえば,インターネットには猫の画像が沢山ありますが,多くの人がブログやSNSのハッシュタグでこの画像は「猫」であると正解ラベルを付与しています.このような正解ラベルが付与されたデータをインターネットから大量に収集して機械に学習させれば,機械が画像の中から猫を自動的に探してくれるようになります.これは「集合知」と呼ばれるもので,大量のデータを学習させることで将来的にAIの性能は人間を超越し,多くの人の仕事を奪うと騒がれています.これは本当でしょうか?
ビッグデータの研究はすでにレッドオーシャンです.AI業界は大量のデータと高速な計算機,優秀なエンジニアを沢山抱えているところが,必然的に勝てるようになっています.すなわち,AI業界はすでに装置産業であり資本力の勝負といえるでしょう.これまで,人にも設備にも潤沢な資金を投資してこなかった本邦は,もはやビッグデータ領域においてGAFAやOpenAIに追いつくことはできません.
スモールデータの世界は違います.スモールデータとは,たとえばある装置の故障データなどデータの発生自体が稀だったり,疾患についての臨床データなど倫理的な理由で収集するのが困難なデータのことを指します.さらにスモールデータでは,限られた専門家でないとデータの解釈が困難な場合が多く,ラベル付けも高コストであったりします,異常脳波を正確にラベリングするのは,判読医や専門技師でないと務まりません,したがって,スモールデータを対象とする研究においては,データをクリーニングしフォーマットを揃え解析可能なデータセットを構築すること自体にも,大きな価値があります.スモールデータ解析においては,データの背後にある因果関係や物理,生理学についての知識,さまざまなケーススタディ,専門家の持っているノウハウ・暗黙知などを積極的にモデリングに取り込む必要があります.そしてそのような知識は少数の専門家が作っていることを考慮すると,スモールデータの分野ではAIの性能は人間を越えることができず,高々,少数の専門家の性能を近似するのが限界であることがわかります.
このようなスモールデータ解析は,理論研究の立場からするとad hocでシステマティックでないように感じられるかも知れません.しかし現実の複雑な問題の解決には,理論だけでは対処できず試行錯誤を含みます.その試行錯誤の過程においてスモールデータ解析に関してのノウハウが蓄積され,さまざまなドメインの知識とともに,そのノウハウは体系化されるでしょう.したがって.スモールデータの研究には,まだまだブルーオーシャンが拡がっているのです!
我々の研究室では,てんかんや睡眠障害,脳卒中,熱中症などの疾患を対象に,多くの病院,研究機関と連携して臨床データを収集しています.北は北海道から南は沖縄まで,診療科を跨いで日本各地に構築した病院,専門医とのネットワークこそが我々の最大の財産です.それでも不足するデータは,自分たちで動物実験や被験者実験を行ってデータを収集し,その解析を通じて医療AIや医療機器の開発を行っています.さらにこれらのデータ解析によって,さまざまな疾患の機序の解明など,基礎医学・生理学への貢献を目指しています.
スモールデータを解析するための方法論の確立や,新たな機械学習アルゴリズムの開発も実施しています.具体的には,不均衡データ解析アルゴリズムや異常検知アルゴリズム,異常診断手法についての開発も実施しています.
さらに,オールジャパンでの医療機器開発の実現を目指して,学会活動やAMEDを通じて,工学・情報系の研究者と臨床を結びつける活動を推進しています.