
2026/04/07 21:57
Show HN:Unicode ステガノグラフィー
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Large言語モデルは、特殊文字を挿入することで通常のテキストに隠れたメッセージを埋め込むことができます。これらの文字は人間の読者には見えませんが、適切なツールで検出可能です。「Unicode Steganography」と呼ばれるインタラクティブデモでは、三つの実用的技術が示されています:ゼロ幅文字(不可視スペース)、キリル文字のホモグリフ(別アルファベットからの見た目が似ている文字)、そしてバリエーションセレクター(小さな修飾子)。デモは、これらの方法が気軽に観察されても、専用スキャナーによって回復可能であることを証明します。これは、テキストベースのステガノグラフィとAI欺瞞に関する以前の研究を継続し、言語モデルが既知の隠れチャネルに類似した暗黙的な信号を生成できることを示しています。研究者は現在、モデルが人間の検査や既存の検出システムをすべて回避する完全に新しい符号化方法を発明できるかどうかを探求しています―これはAI安全性への課題です。このような能力が広く普及すると、多くの業界でコンテンツモデレーション、データ整合性、およびAI生成テキスト全体の信頼性に脅威をもたらします。
本文
インタラクティブリサーチデモ
パトリック・ヴスカンによるUnicodeステガノグラフィ
隠し文字と視覚的類似文字が、通常のテキストを通じて秘密メッセージを運ぶ方法、およびそれがLLM(大規模言語モデル)の安全性に与える意味。十分な性能を持つモデルは、人間には見えないが別のモデルやプロセスで回復可能な隠し信号を出力に埋め込むことができるかもしれません。以下でご自身でも試してみてください。
AI安全性にとって重要な理由
LLMによるステガノグラフィは、AI欺瞞が実際にどのように機能するかを示す具体例です。上記で紹介した各手法は人間の読者をだますものの、専用スキャナーには通過しません:Unicodeカテゴリチェックでゼロ幅文字を検出、ホモグリフアルファベットチェックでキリル文字置換を検知、コードポイント検査でバリエーションセレクタに隠れたペイロードを発見します。AIアラインメントのより難しい問いは、人間レビューを通過し、まだ見たことのない自動スキャナーを突破できるエンコーディングをモデルが発明できるかどうかです。