
2026/05/15 7:37
オンタリオ州の監査役が、医師用の AI による医学記録作成システムが基本的な事実に繰り返し誤りを生じさせていることを発見しました。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
オンタリオ州監査長による重大な監査は、公的サービスにおける AI 利用に関する広範な報告書の一部であり、20 が評価された AI スライブシステムのうち 60% が、医療詳細を捏造し重要な情報を欠いていることから臨床的安全基準に適合していないことが明らかとなりました。この評価スコアリング体制は安全を危険なほど過小評価しており、正確な医療注釈生成にはわずか 4% の重みしか付与しておらず、バイアス制御(2%)、プライバシー評価(2%)、SOC 2 準拠(4%)にも低い重み付けを行いましたが、一方でベンダーの国内存在を 30% と大幅に優先していました。具体的には、12 のシステムが薬物を誤ってリストアップし、17 が精神保健に関する議論を見落とし、9 が未検証の提案を生成しました。オンタリオ州保健省のスポークスマンは、現在これらのツールを利用している医師が 5,000 人以上おり、既知の患者への危害はないと指摘しましたが、以前の消費者向け AI モデルも同様に診断精度の問題に直面したという事実があるにもかかわらず、専門家は不均衡な重み付けによりバイアスのかかった記録やプライバシー侵害が生じる危険性を警告しています。その結果、医師はすべての AI 生成注釈を手動で確認する必要があるものの、承認されたシステムの一つにも、この検証を強制するための必須機能が備わっていません。ベンダーがビジネス上の優先事項や形式的な準拠事項から厳格な精度テストへの焦点を移行するまでの間、医師らは公式な医療履歴に捏造データを記録するという重大なリスクに直面しています。
本文
評価対象となった AI スライブシステムの約 60% が、患者記録において処方薬を誤認:監査機関の発表
オンタリオ州の医療提供者に承認された AI システムは、省の 20 社にわたるベンダーを対象とした監査の結果、重大な詳細を見逃したり、事実と異なる情報を挿入したり、患者でも臨床医でも言及されなかったような内容を「幻覚(ハルシネーション)」として生成することを常に行うことが判明しました。この調査結果は、カナダ・オンタリオ省の公営サービスにおける AI 利用状況についての更なる包括的報告に含まれており、特にオンタリオ保健省が広範な医療セクターの医師、看護師 practitioner その他の医療専門家に向けて始めた「AI スライブ」プログラムの実態に焦点を当てています。
調達プロセスの一環として、当局者は模擬的な診療対話の録音データを用いて評価を実施しました。その後、医療専門家は元の録音と AI が生成した記録注釈を照合し、その正確性を検証しました。
その結果は、状況の緊急性や AI の正確性に関心を持つ人々にとって、率直に言えば衝撃的なものでした:
- 評価対象となった AI システム 20 社中、19 社(9/20)が、「録音において議論されなかった情報を作り上げ、患者の治療計画に対する助言を追加」していたことが報告されています。同報告書には、記録注釈に含まれる潜在的に甚大で危険な誤情報の例として、「腫瘍は検出されていない」「患者は不安である」といった主張が挙げられていますが、これらは録音のいずれでも触れられていなかったと指摘されています。
- 評価された AI システムのうち、12 社(20/20)が患者記録内に処方薬に関する誤った情報を挿入していました。
- さらに、シミュレーション録音において議論された「患者の精神保健上の課題について」を、17 社のシステムが見落としていました。報告書によれば、そのうち 6 社は「患者の精神保健上の課題を完全に、あるいは部分的に見落とし、または重要な詳細を欠いている」と判定されています。
医師が新技術を導入する際の支援を行う団体であり、AI スライムの調達プロセスにも関わったオンタリオ MD(OntarioMD)は、医師に対し、AI が作成した記録注釈の正確性を必ず手作業で確認することを推奨しています。しかし、同報告書は、承認された AI スライブシステムの中に、何らかの強制力のある「認証機能(attestation feature)」がないことを指摘しています。
評価自体が不適切なため、改善が見込めない
AI システムが誤りを犯すことはそれほど驚くべきことではありません。われわれが以前に報道した通り、一般消費者向けの AI は医療情報の提供において劣る傾向を示しており、いくつかの調査では、大規模言語モデル(LLM)が検査対象となるケースの約 80% で適切でない鑑別診断を生成していないことが判明しています。しかし、今回評価を受けたツールは一般消費者向けではなく医師向けのものであるため、このような低いパフォーマンスについては十分に説明が必要となります。報告書の一貫して、システムの評価方法そのものが原因であると指摘しています。
同報告書によると、AI スライブのパフォーマンスに関する各種カテゴリへの重み付けが不適切だったことが判明しました。プラットフォーム全体の評価スコアの 30% は、単にオンタリオ州内での国内拠点の有無という条件だけで決まりつつ、実際の医療注釈の正確性自体が合計スコアに対してわずか 4% にしかなかったのです:
- 医療注釈の正確性:全体スコアの 4%
- バイアス統制措置:全体スコアの 2%
- 脅威・リスクおよびプライバシー評価:全体スコアの 2%
- SOC2 タイプ2準拠:全体スコアの追加 4 分のポイント
すなわち、正確性やバイアス統制、そして重要なセキュリティおよびプライバシー保護策に関連する基準は、AI スライブシステムの総合評価スコアにおいて極めて小さな割合しか占めていません。報告書はこの採点制度について次のように警告しています。「不適切な重み付けにより、正確さまたは公平性に欠ける医療記録を生成し得るベンダーが選定され、あるいは機密性の高い個人健康情報を守り抜く十分な保護措置を持たないベンダーが採用される結果を生む可能性があります」と述べています。
登録メディア誌(The Register)は、オンタリオ保健省に対してこの報告書への見解や、AI スライブプログラムの推奨事項を順守するかどうかを問い合わせましたが、当面の間返答がありませんでした。保健省のスポークスマンは水曜日、CBC にインタビューで、オンタリオ州では 5,000 人以上の医師が AI スライブプログラムに参加しており、現時点ではこの技術に起因する患者への被害報告は確認されていないとのことでした。