Over fifty new hallucinations in ICLR 2026 submissions

2025/12/07 22:16

Over fifty new hallucinations in ICLR 2026 submissions

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

改訂要約

本書は、OpenReviewやarXivなどのさまざまな場で引用されている12件の学術論文を精査しています。各論文について、タイトル・著者リスト・会議情報・出版年を引用通りに列挙し、具体的な不正確点を指摘します。

  1. TamperTok – 「Forensics‑Driven Tokenized Autoregressive Framework for Image Tampering Localization」(OpenReview):掲載されている著者全員が誤っています。
  2. MixtureVitae – 「Open Web‑Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive Text Sources」:最初の3名は一致しますが、残り7名は架空または存在しません。
  3. Catch‑Only‑One – 「Non‑Transferable Examples for Model‑Specific Authorization」(OpenReview):引用された会議に該当する論文は存在せず、内容は偽です。
  4. OrtSAE – 「Orthogonal Sparse Autoencoders Uncover Atomic Features」:掲載されている著者全員が誤っています。
  5. Principled Policy Optimization for LLMs via Self‑Normalized Importance Sampling:第一著者を除き、他のすべての著者は架空であり、タイトルも変更されています。
  6. PDMBench – 「A Standardized Platform for Predictive Maintenance Research」(OpenReview):著者と会議情報は一致しますが、タイトルに若干差異があり年も誤っています。
  7. IMPQ – 「Interaction‑Aware Layerwise Mixed Precision Quantization for LLMs」:掲載された著者は実際のarXiv論文と異なり、タイトル/著者不一致があります。
  8. C3‑OWD – 「A Curriculum Cross‑modal Contrastive Learning Framework for Open‑World Detection」(OpenReview):主題は一致しますが、引用された会議や著者は合致しません。
  9. TopoMHC – 「Sequence–Topology Fusion for MHC Binding」:掲載論文は別のものであり、著者とタイトルが誤っています。
  10. Can Text‑to‑Video Models Generate Realistic Human Motion?:論文自体は存在しますが、引用された著者とページ数は不正確です。
  11. GRF‑LLM – 「Environment‑Aware Wireless Channel Modeling via LLM‑Guided 3D Gaussians」(OpenReview):実際の会議論文とは部分的に一致し、タイトルも異なります。
  12. Listwise Generalized Preference Optimization with Process‑aware Signals for LLM Reasoning:論文は存在しますが、列挙された著者全員が架空であり、タイトルも変更されています。

これらの不整合は、OpenReviewやarXivなどのプラットフォームにおける書誌情報の広範な操作を示しており、学術的誠実性を損なっています。本書では、正式な撤回手続き、データベース修正、および将来の偽情報防止のための厳格な検証プロトコルの導入などの行動を呼びかけています。指摘された結果としては、正当な研究者への評判損失、資金提供機関の混乱、文献レビューの歪み、および採用決定・協業・研究資金配分に影響を与える可能性がある学術出版全体への信頼喪失といった広範な影響が挙げられます。

本文

検証済み幻覚例

  • TamperTok:画像改ざん位置特定のためのフォレンジック駆動トークン化自己回帰フレームワーク

  • MixtureVitae:許容的テキストソースから構築した高品質な指示・推論データを備えたオープンウェブスケール事前学習データセット

    • スコア 8.0
    • 論文リンク:OpenReview – https://app.gptzero.me/documents/bfd10666-ea2d-454c-9ab2-75faa8b84281/share
    • 著者:Dan Hendrycks, Collin Burns, Steven Basart, Andy Critch, Jerry Li, Dawn Ippolito, Aina Lapedriza, Florian Tramer, Rylan Macfarlane, Eric Jiang, et al.
    • 備考:最初の3名は実際の論文と一致するが、残り7名は作成されたか存在しない。
  • Catch‑Only‑One:モデル固有認可用非転送可能サンプル

  • OrtSAE:原子特徴を明らかにする正交疎自動符号器

  • Principled Policy Optimization for LLMs via Self‑Normalized Importance Sampling

    • スコア 5.0
    • 論文リンク:OpenReview – https://app.gptzero.me/documents/54c8aa45-c97d-48fc-b9d0-d491d54df8d3/share
    • 著者:David Rein, Stas Gaskin, Lajanugen Logeswaran, Adva Wolf, Oded teht sun, Jackson H. He, Divyansh Kaushik, Chitta Baral, Yair Carmon, Vered Shwartz, Sang‑Woo Lee, Yoav Goldberg, C. J. H. un, Swaroop Mishra, Daniel Khashabi
    • 備考:最初の1名以外は全て作成された。
  • PDMBench:予測保守研究のための標準化プラットフォーム

    • スコア 4.5
    • 論文リンク:OpenReview – https://app.gptzero.me/documents/5c55afe7-1689-480d-ac44-9502dc0f9229/share
    • 著者:Andrew Chen, Andy Chow, Aaron Davidson, Arjun DCunha, Ali Ghodsi, Sue Ann Hong, Andy Konwinski, Clemens Mewald, Siddharth Murching, Tomas Nykodym, et al.
    • 備考:著者と会議は引用された論文と一致するが、タイトルはわずかに異なり、年も誤っている。
  • IMPQ:LLMs用の相互作用認識レイヤ別混合精度量子化

  • C3‑OWD:オープンワールド検出のためのカリキュラムクロスモーダル対照学習フレームワーク

  • TopoMHC:MHC結合のためのシーケンス‑トポロジ融合

  • Can Text‑to‑Video Models Generate Realistic Human Motion?

  • GRF‑LLM:LLMガイド付き3D Gaussiansによる環境認識型無線チャネルモデリング

(残りの項目も同様に、スコア・リンク・著者・不一致の簡潔な備考が記載されています。)

同じ日のほかのニュース

一覧に戻る →

2025/12/08 2:18

I failed to recreate the 1996 Space Jam website with Claude

## Japanese Translation: ## 要約 著者は、Claude AI を使って 1996 年の Warner Bros の「Space Jam」ランディングページをスクリーンショットとアセットフォルダから再構築しようとしました。元のサイトは 200 KB 未満の単一 HTML ファイルで、絶対位置決め、テーブルレイアウト、およびタイル状の星空 GIF 背景に依存しています。 **プロセスと所見** 1. **初期試行:** Claude は概算レイアウトを生成しましたが、惑星軌道を誤った位置に配置しました。軌道パターンは認識できたものの、それを再現することには失敗しました。 2. **構造化プロンプト:** 著者は Claude に「知覚分析」「空間解釈」「再構築計画」の各セクションで理由を説明させ、正確なピクセル座標を要求しましたが、Claude はそれらを提供できませんでした。 3. **カスタムツール:** 精度向上のために 50 px → 5 px のグリッドオーバーレイ、ラベル付き座標参照点、色差比較、スクリーンショットサイドバイサイドビューア、およびスクリーンショットを 6 区域に分割するスクリプトを構築しました。 4. **結果:** Claude の調整は目標から 5–10 px 内に留まりましたが、正しい軌道半径(約 350–400 px)には決して収束しませんでした。内部レイアウトが生成されると、その後のフィードバックは元のスクリーンショットではなく、この誤ったモデルに基づいて行われました。 5. **トークナイズ仮説:** 著者は Claude が 16×16 パッチで画像をトークナイズしているため、細かい視覚的粒度が欠如し、セマンティック理解はあるもののピクセル精度が低いと考えました。 6. **ズームインテスト:** 200 % に拡大したスクリーンショットを提供して、大きなパッチで解像度が向上するか確認しましたが、Claude は依然として比例スケーリング指示に従いませんでした。 **結論** このタスクは未解決のままです。実験は Claude の空間推論限界をベンチマークとし、ピクセル単位で正確な画像再構築におけるモデルの現在の制約を示しています。

2025/12/08 7:18

How I block all online ads

## Japanese Translation: > **概要:** > 著者は、ウェブブラウザとモバイルアプリの両方で広告を排除するために長期的かつ多層的なアプローチを説明しています。彼は **Firefox + uBlock Origin** と最小限のフィルタリスト(組み込みのuBlockフィルタ、EasyList、AdGuard – Ads)と「広告でない不快要素」のためのカスタム非広告フィルタを使用します。 > DNS フィルタリングには **Pi‑hole(または AdGuard Home)** を Docker 上で $5 の DigitalOcean ドロップレットに稼働させ、WireGuard VPN の DNS サーバとして設定しています。トラフィックは **クラウドベースの VPN**(DigitalOcean、Hetzner、Azure、Google Cloud、または AWS)を経由し、プラットフォームが公的クラウド IP を検知して広告配信を減らします。 > この設定では **Cloudflare のキャプチャや HTTP エラー** が発生する場合があるため、著者は該当サイトで VPN を無効化しています。また、**Consent‑O‑Matic**(クッキーポップアップ)、**Buster**(キャプチャ)、**SponsorBlock**(動画広告)などのブラウザ拡張機能を推奨します。iOS では **Background App Refresh** をオフにするとデータ収集が減少し、Android では **ReVanced がアプリをパッチできますが、セキュリティリスクがあります** と指摘しています。 > 著者はこの統合戦略を 3 年以上使用しており、現在ほとんど広告を見ることはありません。プラットフォーム別の効果は異なります:YouTube は uBlock Origin + VPN(1週間〜1か月)が必要;Instagram は uBlock Origin のみで十分;Twitch は主に VPN に依存し、数日で効果が現れます;TikTok は両方のツールを使用しますが、数時間だけです。**AdMob** を利用するアプリも DNS ブロックの恩恵を受けます。 > 広告配信ネットワークは数日から数週間でパターンを観察し調整する可能性があるため、継続的な監視が必要です。著者は **Firebog** をブロックリストの良い情報源として引用し、正当なサイトを壊さないように許可リスト(allowlist)を維持する重要性を強調しています。

2025/12/07 23:37

Dollar-stores overcharge cash-strapped customers while promising low prices

## Japanese Translation: ドルジェネラルとファミリードラーは、棚に貼られたタグの価格よりも高い価格で顧客を頻繁に請求し、低所得層の買い物客に不釣り合いな過剰課金が広く発生しています。州検査と独立調査では、一部店舗でエラー率が88%に達するケースや、両チェーン全体で価格設定失敗が一貫して報告されています。 主な例としては、ノースカロライナ州ウィンザーのファミリードラーで23%のスキャンアイテムが過剰請求(同店の4回連続失敗)、オハイオ州ハミルトンのドルジェネラルで76%のエラー率(2022年10月)、ニュージャージー州バウンドブルックのファミリードラーで68%の不一致(2023年2月)があります。2022年1月以降、ドルジェネラルは4,300件以上、ファミリードラーは2,100件以上の価格失敗事例を記録しています。 アリゾナ州(60万ドル)、コロラド州(40万ドル)、ニュージャージー州・バーモント州・ウィスコンシン州・オハイオ州(最大100万ドル)など複数の州がチェーンと訴訟を和解し、連邦および州の司法長官は追加訴訟を提起しています。株主訴訟では、経営陣がシステム的問題を認識していたと主張されています。ニュージャージー州の連邦裁判所は、モバイルアプリ利用に関連する仲裁条項を理由にドルジェネラルに対する集団訴訟を停止し、消費者の救済手段を制限しました。 規制当局は現在の1検査あたり5,000ドル上限を超えるより厳格な執行や高い罰則を課すことができ、さらに州が調査を進めるにつれて追加の和解が生じる可能性があります。影響としては顧客信頼の低下、チェーンへの潜在的財務損失、評判へのダメージ、およびドルストア業界全体での価格設定と人員管理の強化への動きが挙げられます。

Over fifty new hallucinations in ICLR 2026 submissions | そっか~ニュース