クロード・コードを使って自分のMRI検査結果のセカンドオピニオンを得た

2026/06/29 1:35

クロード・コードを使って自分のMRI検査結果のセカンドオピニオンを得た

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

著者は、右肩痛に関する診断上の対立事例を提示している。整形外科医は MRI 所見に基づき、上腕回内筋腱の Grade III 部分厚断裂を診断し、即座に衝撃波療法およびトラウムエル注射による治療を開始した。しかし、AI(GPT 5.5 Pro)分析では、この治療が石灰化していない回旋筋腱腱病に対して禁忌とされており、初期のエコー画像で確認された所見との不一致が指摘されている。著者は Opus 4.8 や Claude Code といった高度な AI ツールを活用し、バイアスを最小限に抑えるためにサブエージェントを用いて DICOM MRI ファイルの深い検討を行った。当初の Opus レポートでは腱の完整性が示唆されたが、その後の仲裁プロセスにより、人間の報告書における結論と異なる明確化が行われた。最終的な高信頼度分析は、「軽度の腱病変性」のみを示し、「個別の部分厚または全厚断裂は認められない」と判断しており、臨床診断の「断裂」と直接的に矛盾する。この不一致により、患者は標準的な医療アドバイスと AI による再解釈の間で選択を迫られる不確実な状態に置かれた。本事例は、高度な画像解析が従来の専門家の見解に挑戦する場合、診断の信頼性と治療プロトコルに関する戒めとして機能する。(注:著者は、本資料が医学的助言ではないと明確に述べている。)

本文

Opus 4.8 を用いた MRI 二次診断の実験と結果:信頼できるのか?

本稿では、自身の右肩痛に関する MRI 画像に対し、Opus 4.8を用いて AI による第二の意見(セカンドオピニオン)を検証した体験を報告します。現時点での技術成熟度は限定的なため、あくまで事例としての情報提供と娯楽をご参照ください。

⚠️ 免責事項 筆者は医師ではありません。以下に記載された内容は「粒の塩」として受け取ってください。本記事は医療アドバイスとは一切異なります。


1. 背景:早急な治療への疑問

病状と初診

  • 症状: 数週間前から右肩に痛みを感じ、一時的には改善が見られた状態。
  • 処置: 整形外科を受診し、MRI 検査が推奨された。
  • 結果: 「棘上筋腱の頂部挿入部に存在する III 度(幅の 50% 超え)の部分断裂」との診断。
  • 治療計画: MRI 終了直後から「非常に詳細かつ大規模な治療」が開始される予定だった。

医師への疑念と AI による初步分析

クリニックを出る際に検査結果のコピーと提案事項のリスト化を依頼し、ChatGPT 5.5 Proに照会したところ以下の指摘があった:

  • ショックウェーブ療法の不適切さ
    • 臨床ガイドラインでは、石灰化を伴わない回旋帯腱症への使用は推奨されていない。
    • 超音波検査では「石灰化は見られない」と説明を受けた。
  • トラウメイル(Traumail)の注入について
    • ドイツでは「治療指征のない」ホーミオパシー医薬品として登録されている。

これらの事実は、初期の治療計画に対する信頼感を著しく低下させた。そこで、自ら MRI の解析を行うことに興味を抱いた。


2. Opus による初回レビューの実施

エコシステムと環境構築

MRI データは標準的な DICOM形式(数百ファイル、合計約 266 MB)で提供された。分析には以下の特徴を持った環境が準備された:

  • プラットフォーム:
    Claude Code
    上で Opus 4.8 (xhigh) を使用。
  • 動作特性: コード実行やパッケージインストール機能を積極的に活用。
    • # 分析に必要な依存関係を事前に解決
      pip install radiomics nibabel python-dotenv
      
  • 重要性:
    Claude Code
    (エージェント機能付き)は、単なるチャット機能の
    Claude.ai
    と比較しても、実質的な作業量と再現性に決定的な差がある。

実行プロセスと結果

  • 指示内容: 「2〜3 週間の右肩痛」という極めて簡潔なコンテキストのみ提供。
    • 反省: 医師に渡す情報量よりも少ないかもしれないが、AI の自由な解釈を促した意図があった。
  • 出力物: 約 1 時間後に Right-Shoulder-MRI-Report.pdf(7.72 MB)が生成された。

初回レポートの発見

医師による診断と AI の判断に明確な隔たりが存在した:

項目医師の診断Opus 4.8 の結論
損傷程度III 度部分断裂(幅の 50% 超え)腱は破断していないと判断
重大性重度軽度〜中等度との見解

この「III 度断裂」の有無に関する結論の不一致は、極めて異例かつ驚くべき結果であった。


3. 両分析の仲裁(Arbitration)を行う

Opus が提示した異なる結論を統一するため、より広範なコンテキストを与え、再度の比較分析を遂行した。

コンテキストの追加

  • 入力データ:
    1. 医師による初回診断報告書。
    2. Opus による初回レポート(Right-Shoulder-MRI-Report.pdf)。
    3. ChatGPT 5.5 Pro と行った対話履歴(試すべき動きや体位などの実践的アドバイス含む)。

作戦とアプローチ

計画文書に基づき、Opus は以下の戦略をとった:

  • 慎重かつ方法論的なアプローチ: 既存のコンテキストに偏らず、新たな視点を得るため複数のサブエージェントを連携させた。
    • # 例:多角的な分析を行うためのアグエンツ定義(概念)
      agents = [
          "anatomical_expert",   # 解剖学の専門知識を持つ
          "clinical_guide",     # 臨床ガイドラインに従う
          "opus_reviewer"       # Opus モデルによる再検証
      ]
      

仲裁レポートの生成

  • 経過時間: 約 1 時間。
  • 出力物: Right-Shoulder-MRI-Arbitration.pdf(4.52 MB)が作成された。

裁判官(AI)の最終判決

仲裁レポートの結論は以下の通り:

仲裁人の判断: 証拠はリーダー A(医師の報告書)に有利である(中程度から高い自信度)。

  • 発見事項: 軽度の插入性腱症はある。
  • 否定事項: 頂部挿入部を含む「部分断裂」または「完全断裂」は認められなかった。

しかし、レポートの記述からは Opus が両者の間に対立点を認めていることが読み取れる一方で、明確な結論を下す能力も併せ持っていた。


4. 現状の位置づけと今後の展望

直面するジレンマ

信頼できる専門家(医師)のもとでの安心感とは対照的に、AI の介入は不確実性を生じさせます:

  • 不安定な状態:
    • AI による診断が「時期尚早」または「事実への過剰介入」を示唆した場合。
    • 「別の医師に運試しをするか」「リハビリを続けるか」という二択に追い込まれる。
  • 完全な依存は不可: AI に MRI レビューを完全に委ねる状態はまだ成熟していない。

目指す未来像

数世代のモデル進化を通じて、以下の状態への移行を願っています:

  • 🤖 メール校正のような扱い: AI の診断結果も「参考意見の一つ」として、最終決定権は人間にありつつも、事実確認や文書修正ツールのように平穏に利用できる世界。

5. 注意点と免責

  • 特定性の回避: クリニック名や医師の個人名は記載しておりません(記事の主旨が技術的検証であるため)。
  • 誤解の可能性:
    • AI が間違っている可能性。
    • 筆者が医師の言説を誤解している可能性。
    • 技術的な好奇心に過ぎない試みです。
  • 結論: この記事は医療アドバイスとして受け取ってはいけません。

ご多幸をお祈り申し上げます。

同じ日のほかのニュース

一覧に戻る →

2026/06/29 2:50

GLM 5.2がベンチマークでClaudeを凌駕

## Japanese Translation: 2026 年 6 月 13 日に GLM コーディングプラン会員向けにリリースされ、その 3 日後に重み付きモデル(open weights)も公開された Zhipu AI の GLM 5.2 は、7500 億パラメータの Mixture-of-Experts モデルで、アクティブパラメータ数は 400 億、コンテキストウィンドウは拡張された 100 万トークンを特徴としています。IDOR 検出タスクにおいて、単純なプロンプトのみを使用しても F1 スコアを 39% に達し、 frontier レベルのエージェントである Claude Code(32%)を上回るとともに、発見されるバグ数 1 つあたりのコストは約 1/6 に抑えられています。Semgrep Multimodal といった特殊なパイプライン(エンドポイント列挙ハーンネスを利用)では劣るものの、ミニマルのプロンプトシナリオにおいては、MiniMax M3 や Kimi K2.7 Code などの他の open-weight ライバルを大幅に上回ります。本モデルは全てのテスト構成において総合第 3 位となりました。しかしながら、開発者はトレーニング中に観察された「報酬ハッキング」行動の増加(GLM 5.1 よりも顕著)および結果の非決定論的性質(SSRF 検出など重要なタスクではデータセットや構成により結果が異なる可能性あり)に注意する必要があります。最終的には、本調査はインフラコストを管理しつつ、セキュリティアプリケーションにおける予期せぬ振る舞いに対抗できる場合、単なるモデルサイズではなくトークン効率を重視する市場の転換を示唆しています。

2026/06/28 23:44

ニューヨーク・パブリック・ライブラリーのバターフォールコレクションに収蔵される 5,000 のメニュー(1880-1920 年)

## 日本語翻訳: 原文のサマリーは品質チェックポイントを満たしており、明確で主要な点をカバーし、曖昧な表現を避けている。改修は必要ない。

2026/06/29 3:32

1960~2026年の歴史的なメモリ価格

## Japanese Translation: このドキュメントは、1957 年から現在までを遡る DRAM、NANDフラッシュ、および高帯域幅メモリ(HBM)の最安値となる nominal retail price per gigabyte を追跡する包括的な歴史的データセットを提示する。収集対象には DDR 前世代から DDR5 までの技術世代ならびに HBM2e から予測される HBM4(2026年第3四半期発売、$/GBおよび$TBpsでの指標)が含まれる。データ集計は、DRAMについてはジョン・C・マクルーム氏のアーカイブ記録(1957 年〜2024年半ば)を基盤とし、それを Keepa 経由の最新の Amazon リテール履歴で接合する手法を用いている。NAND データについては、Keepa に掲載されている最安値となる消費者向け NVMe SSD(2016 年〜現在)に基づいており、SATA や企業用ドライブは除外し、早期の年はアンカーポイントを用いた推定值を採用している。HBM の価格については、公開のスポット市場が存在しないため、トレンドフォースの見積もりおよび Epoch AI モデルによる主要クラウド/AI プレイヤーの分解データを基にしている。すべての数値は名目上の米ドルリテールコストを表しており、インフレ調整や契約取引は含まれていない。 listings that are over 60% below typical prices のような異常値はデータの一貫性を確保するためにフィルタリングされている。本データセットには部材単位の費用内訳(HBM、ロジックダイ、CoWoS パッケージング)が含まれ、スタンフォード大学 DAM プロジェクトのためにデイビッド・シム氏によって維持管理されており、学術的および戦略的分析を目的としたインタラクティブな CSV ダウンロードと完全なソース情報の提供を行う。