2026/06/26 5:50

Un-0：結合振動子による画像生成

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

Unconventional AI による Un-0 プロジェクトは、エネルギーを大量に消費する GPU 深層学習から、結合振子を用いた物理学に基づく計算への画期的な転換点を示しています。2026 年 6 月 25 日にリリースされ、このアプローチは従来のニューラルネットワークに依存せず、常微分方程式（ODE）を解くことで、およそ 1,000 倍のエネルギー効率を実現します。アーキテクチャは学習可能な振子パラメータ——具体的には Kuramoto フレームワーク内の結合強度と固有周波数——を活用し、明示的なオイラー積分スキームを使用してエンドツーエンドで訓練を行います。

パフォーマンスに関しては、ImageNet 64×64 モデル（Un-0.n16384）は FID スコア 6.74 を達成しました。この品質は DCGAN や BigGAN などの初期の従来型ジェネレーターと重なるものの、現在では EDM のような最新の最先端モデルには及びません。アブレーションの結果は、訓練されたダイナミクスが多様性と汎化能力を維持し、低パラメータの従来型デコーダーが画像の忠実度を担当することを確認しています。CIFAR-10 および ImageNet での訓練において、最大のモデル（学習可能なパラメータ 322.44M、6.21M パラメータのデコーダーを含む）には 640 B200 GPU アワーが使用されました。オープンソースツールのうち、重みおよびスクリプトも利用可能で、研究の促進に役立ちます。今後の展望として、チームは高度なアルゴリズムによって残りの品質ギャップを埋め、CMOS チップなどの物理ハードウェアでの展開に向けて準備を進める計画です。これは AI のエネルギー消費を大幅に削減することによって持続可能な未来を約束します。

Text to translate:

The Un-0 project by Unconventional AI marks a pivotal shift from energy-intensive GPU deep learning to physics-based computation using coupled oscillators. On release on June 25, 2026, this approach achieves roughly 1,000 times better energy efficiency by solving Ordinary Differential Equations (ODEs) rather than relying on traditional neural networks. The architecture leverages learnable oscillator parameters—specifically coupling strengths and natural frequencies within a Kuramoto framework—and trains end-to-end using an explicit Euler integration scheme.

Regarding performance, the ImageNet 64×64 model (Un-0.n16384) achieves an FID score of 6.74. While this quality overlaps with early conventional generators like DCGAN or BigGAN, it currently trails modern state-of-the-art models like EDM. Ablation results confirm that the trained dynamics preserve diversity and generalization, while a low-parameter conventional decoder handles image fidelity. Training on CIFAR-10 and ImageNet used 640 B200 GPU-hours for the largest model, which includes 322.44M trainable parameters and a 6.21M parameter decoder. Open-source tools, including weights and scripts, are available to accelerate research. Looking ahead, the team plans to close the remaining quality gap through advanced algorithms and prepare for deployment on physical hardware like CMOS chips, promising a sustainable future for AI by drastically reducing energy consumption.

本文

ユンゼロ（Un-0）：結合振動子を用いた画像生成モデルの紹介

2026 年 6 月 25 日

TL;DR（要約）

背景: GPU による深層ニューラルネットワークが AI の主流を支配していましたが、次なるエネルギー効率化のためには物理法則自身が計算を行うコンピュータが必要とされています。
本稿の提案: 我々は結合振動子という物理シミュレーションシステムを駆動する画像生成モデル**Un-0（ユンゼロ）**を開発しました。
主要な結果:
- ImageNet 64×64 ベンチマークで FID 値 6.74 を達成。従来の最先端手法の初期公開時と同等の品質です。
- モデル重み、トレーニングコード、アブレーション（解析）コードはすべてオープンソース化されています。
展望: 物理演算基板の一例であり、非伝統的なアプローチへの新たな冒険を提唱します。

ユンゼロ（Un-0）の概要

研究の目的と背景

目標: 現在の AI が消費するエネルギーの約1,000 分の 1の消費電力で、最新の AI モデルを実行することを目指しています。
問いかけ: 「大規模な画像生成を、物理的なダイナミクス系（動的システム）にトレーニングすることはできるか？」

物理ベースの代替計算手法の歴史

アナログ電圧や電流を用いて、デジタル数値ではなく物理システムのダイナミクスを活用するアプローチがあります。
これらの技術には以下が含まれます：
- ニューロモルフィックコンピューティング (Mead, 1990)
- ホップフィールドネットワーク (Hopfield, 1982)
- リザーボア計算 (Reservoir computing)
- ハミルトニアンネットワーク、リキッドネットワーク、ニューラル波マシンなど（近年の進展）

Un-0 のベンチマーク性能

記録: ImageNet 64×64 クラス条件付きにおいて FID 値 6.74 を達成。
- これは物理的ダイナミクス系のシミュレーションを利用した画像生成モデルの中で、我々が知る限り最高水準です。
データ空間経路: ダイズ、湖畔、火山など多様なクラスにおいて、生成プロセスにおける経路を可視化しています。
今後の余地: パラメータ数を調整することで、さらに従来の最先端（conventional frontier）に迫る可能性があります。

公開リソース

モデル重み
トレーニングコード
アブレーション（解析）コード
これらすべてをオープンソース化し、研究の再現性と拡張性を高めています。

ユンゼロの仕組み

結合振動子の基本概念

メトロノームの比喩: 2 つのメトロノーム（振動子）が互いに影響し合い、歩調を合わせたり（同期）、反対方向へ向かったり（逆相）する様子をイメージしてください。
物理的実装: Un-0 は**クラモト振動子 (Kuramoto Oscillators)**をモデル化しています。
- 各振動子は「自身の自然周波数」で回転しようとし、「他からの引力（結合）」に影響を受けながら進化します。
- このシステムは、物理回路に直接実装可能であり、物理法則そのものが計算を行うという点が決定的な特徴です。

計算の仕組みとアーキテクチャ

生成プロセス (5 ステップ)

ランダム性から出発: 全ての振動子位相をランダムに設定（拡散モデルのノイズ相当）。
クラスを選択: 要求されたクラス（例：「daisy」）に対応する小さな振動子グループを結合。
物理法則を実行: システムを解放し、振動子が互いに引き合いながら収束。
スナップショット取得: 時間 $T$ に至った時の位相を記録（画像の潜在表現）。
レンダリング: 従来のデコーダーが潜在表現から画像へ変換。

トレーニング対象 (3 パラメータ)

結合行列 ($K$): 振動子間の結合強度。
自然周波数 ($\omega_i$): 各振動子の回転速度。
デコーダーの重み: 画像生成用のパラメータ。

重要: これにより、従来のニューラルネットワーク層が置換され、物理ダイナミクス自体が計算エンジンの一部となります。

開発と性能評価

学習リソースと構成

CIFAR-10 モデル:
- 最大モデル (Un-0.n4096) には 20 B200 GPU アワー (時間) かかりました。
ImageNet 64×64 モデル:
- 最大モデル (Un-0.n16384) には 640 B200 GPU アワーかかりました。
最適化手法: ドリフティング損失 (Drifting loss)、DINOv2 特徴抽出器、AdamW オプティマイザを使用。

性能サマリー

ImageNet 64×64 ベンチマーク

モデル名	振動子数	トレーニング可能パラメータ	FID@50k (越低越好)
Un-0.n6656	6,656	57.17M	8.41
Un-0.n10240	10,240	129.80M	8.01
Un-0.n16384	16,384	322.44M	6.74 ⭐

CIFAR-10 ベンチマーク (一部)

モデル名	振動子数	トレーニング可能パラメータ総数	FID@50k
Un-0.n4096	4,096	19.43M	8.76

性能の位置付け

従来のモデルと比較: 初期生成モデル（BigGAN, DCGAN 等）と同等、あるいはそれ以上の品質を持ちます。
最新モデルとの差: EDM や GDD などの後期の高性能モデルにはまだ追従できていませんが、新手法の起点として有望です。
スケールと効率性: 従来の最先端に匹敵するにはアルゴリズムやアーキテクチャの洗練が必要ですが、物理ダイナミクスを用いた学習は大きく期待されています。

アブレーション（解析）

テスト内容：振動子の有用性の検証

目標: モデル品質のうちどの部分が「物理的ダイナミクス」に由来するかを特定。

アブレーションバリエント

デコーダーのみ (Decoder only): ダイナミクスなしでデコーダーのみをトレーニング（基準ライン）。
- 結果：事前分布からのノイズターゲットへの変換に苦戦。
リザーボア (Reservoir): 動的な重みを固定化し、単なる特徴抽出器として動作させる。
- 結果：改善が見られるが、学習されたダイナミクスには及ばない。
時間デルタ (Time delta): 統合ステップ数を可変にする（1 ステップ vs 複数ステップ）。
- 結果：ステップ数が増えるほど、ダイナミクスの非線形性が活発になり、FID が改善。

主要な発見

非線形ダイナミクスの重要性: 単なる積分器ではなく、学習されたダイナミクスがモデル性能に大きく寄与しています。
ロバスト性: 学習されたダイナミクスはサイズ減少に対してリザーボイドynamics よりもはるかにロバストです。

ダイナミクスの振る舞いと役割

分離可能性 (Separability) と吸着点 (Attractors)

クラス分離: T=1 の時点で、異なるクラス（例：犬 vs 猫）が明確に分離された状態になっています。
吸着点の形成: 時間経過とともに、システムは特定のクラスに対応する状態へ「吸い寄せられる」ようになります。
- フェーズ 1: クラス条件付き経路の急速な分離。
- フェーズ 2: 画像の詳細な微調整（吸着点多様体への収束）。

画像品質 vs 多様性 (FID の分析)

FID の限界: FID は「画像精度（品質）」と「分布的被覆率（多様性）」の両方を反映します。
Un-0 の特性:
- 初期: ランダムな状態から、低品質だが非常に多様な画像を生成。
- 時間経過: クラモトダイナミクスが画像を「犬」「猫」などの特定のクラスへ引き寄せます（高品質 + 適切な多様性）。
- 効果: デコーダー単体や固定化されたモデルでは到達できない、高い多様性と品質の両立を実現。

結論：ハイブリッドシステムの役割分担

ダイナミクス (Kuramoto): 多様性を維持し、入力空間を広げる役割（一般化）。
デコーダー: 高品質な画像を生成する役割（精度向上）。

結論と展望

現在の到達点

Un-0 の品質は、今日の主要な物理ベースのモデルの開始地点と一致しています。
従来の深層ネットワークはまだ絶対的な優位性を持っていますが、1,000 倍のエネルギー効率化という目標を達成するための新しいアプローチを示しました。

次の課題

アルゴリズムとモデルアーキテクチャのさらなる洗練により、既存の最先端との差を埋める必要があります。
物理ダイナミクスを活用した AI の可能性は、単なるシミュレーションではなく、実装可能な物理演算基板への拡張が鍵となります。

ミッション参加：GitHub リソース

我々は以下のコードとモデルを提供し、コミュニティへの貢献を呼びかけています：

モデル重み: CIFAR-10 及び ImageNet の両方に対応したクラモト振動子モデル。
トレーニングスクリプト: 再現可能でカスタムモデルへの拡張が可能なもの。
アブレーションスクリプト: 全ての設定を網羅し、独自のダイナミクスでの検証が可能です。

詳細は GitHub をご覧ください。我々は非伝統的 AI システムの黎明期にあり、物理ベースのモデルを開発するすべての方に協力を呼びかけています。

参考文献 (Selected)

Chen et al., "Optical generative models", Nature, 2025.
Song & Ermon, "Generative Modeling by Estimating Gradients of the Data Distribution", NeurIPS, 2019.
Nichol & Dhariwal, "Improved Denoising Diffusion Probabilistic Models", ICML, 2021.
Jelinčič et al., "An efficient probabilistic hardware architecture for diffusion-like models", arXiv, 2025.
Miyato et al., "Artificial Kuramoto Oscillatory Neurons", ICLR, 2025.

補遺：モデル仕様と詳細

フォーマルモデル仕様

モデルは初期位相が一様分布からサンプリングされたクラス条件付き潜在生成モデルです。ODE (常微分方程式) に従って時間 $T$ について進化します。

結合振動子の運動方程式

共有振動子系 ($N$) と条件付振動子グループ ($N_c$) から構成されます：

$$ \dot{\theta}i = \omega_i + \sum{j=1}^{N} K_{ij},\sin(\theta_j - \theta_i) + \sum_{k=1}^{N_c}\tilde{K}^{(c)}_{ki}\sin(\phi_k - \theta_i) $$

$\theta_i$: 主振動子の位相
$\omega_i$: 自然周波数
$K_{ij}$: 結合行列 (学習パラメータ)
条件付振動子 ($\phi$): クラス情報を注入する役割を果たす。

デコーディング方法

位相をデコードして画像潜在空間へ変換します： $$ x_i,\ y_i = \cos(\theta_i - \theta_{ref}),\ \sin(\theta_i - \theta_{ref}) $$

参照位相 ($\theta_{ref}$) の設定:
- CIFAR-10: すべての位相の平均値。
- ImageNet 64×64: 最初の振動子の位相 ($\theta_0$)。

アップサンプリングデコーダー

特徴は形状 $(C_l, h_l, w_l)$ の潜在グリッドに再整形されます。
2 倍の空間アップサンプリングと3x3 コンボリューションブロックを反復して適用。
CIFAR-10: 8 倍、ImageNet 64×64: 16 倍のアップサンプリング。
効率性: デコーダーのパラメータ数は総パラメータ数の15% 未満です。

FID x パラメータ図再現データ

本研究では、以下の既存モデルとの比較データを公開しています（Code / Checkpoint あり/なし）。

データセット	モデル例 (一部)	リソース状態
CIFAR-10	BigGAN, DCGAN-TTUR, EDM, NCSN, StyleGAN2-ADA	Code / Checkpoint 多数公開
ImageNet 64×64	ADM-dropout, CD L2, EDM, iDDPM, SlimFlow, StyleGAN-XL, U-ViT	Code / Checkpoint 多数公開

これらを用いて、物理ベースモデルのフロンティアを継続的に推進していく予定です。

同じ日のほかのニュース

一覧に戻る →

2026/06/26 6:44

「パスポート查验」の時代におけるインターネットはあなたのプライバシーを破壊する

## Japanese Translation: **：16歳未満に対するオーストラリアの新しいSNS禁止措置は、2025年12月に施行されるものの、アクセスの大幅な抑制には至っておらず、調査では制限があるにもかかわらず退会せずにプラットフォームを利用し続ける子供が約70％いることが示されています。この法律は、主に学校の授業時間外におけるインターネット利用において機器の使用自体が禁止されている場合に適用され、年齢確認が不十分であることを踏まえ、退会を強制します。コンプライアンスの確保のために生体情報や政府発行の身分証の収集を義務付けていますが、曖昧なガイダンスにより、機密情報の過剰収集が生じ、結果としてオーストラリア人の個人データを約7万人に及ぶ大規模な漏洩を引き起こしました。連邦法に従うために当局は、シンガポール拠点の k-ID を含む第三者による検証ツールを利用しており、オーストラリアを同様の禁止措置を採用する英国、EU およびその他の国々に見られる世界的な潮流に合わせることになりました。高い回避率への対応として、公式は VPN の使用に対する「年齢制限ゲート」を導入を検討しています。しかし、これら厳格な対策には重大な欠点があり、広範な生体情報による検査を通じてオーストラリアが中国やイランと類似した権威主義的な監視モデルを採用するリスクがあります。結論として、未成年者を中毒性の高いフィードや成人向けコンテンツから守ろうとする一方、現在のアプローチはオンライン上の匿名性を脅かし、将来的なプライバシー侵害の可能性を増大させており、米国における各州レベルでの取り組みの違いに反映されるこの懸念も、連邦レベルの法案である「キッズ・オンライン・セーフティ法（KOSA）」を含む案にも見られます。

2026/06/26 0:48

エルコラネオの巻物が初めて全文解読された

## 日本語翻訳： 2026年6月25日、研究者は物理的に切断することなくシールされたエルコーラネオムの巻物PHerc. 1667のギリシャ語原文を仮想的に解開し、完全に読み解くという画期的成果を達成した。これらの炭化した巻物は過去2000年間、ヴェスビオ火山（西暦79年）の噴火から生き残ったのは、外層を開けるには極めて脆くなってしまったからである。19世紀、1969年および1980年代に行った以前の試みでは外層が損傷し、元の高さが19〜24cmあった中で、保存状態を保っていたのは高さわずか8cmの内核のみであった。ヨーロッパシンクロトロン放射施設（ESRF）で実施された高分解能位相コントラストX線マイクロCT走査により、チームは巻物の幾何学的形状を再構成し、表面をデジタル的に平坦化し、機械学習を用いて微弱なインクの痕跡を回復させた。この非侵襲的アプローチにより、1.4メートルの完全な記述面上に存在する約22コラム分のテキストが成功裏に解読された。ブレント・シールス教授によるエデュクレボラブの研究成果や、ヴェスビウスチャレンジチーム（元参加者を含む）に基づくこの研究では、PHerc. 1667には紀元前2世紀のもう一人のアリストクロン（クリッソッポスの甥）に帰属する道徳哲学に関する論説が含まれていることが明らかとなった。また、巻物1（PHerc. パリ4）やPHerc. 139など、他の巻物も読めることが確認され、タイトルへの帰属のために改良されたものもある（例えばフィルデモスの『神について』第8巻）。この拡張可能な手法は、脆弱な状態を保ちつつシールされたパピルスが完全に解読可能であることを証明し、古代のストア派およびエピックュレオス主義者の哲学、詩、プロザを含む数百の残存巻物へのアクセスを可能にした。scrollprize.org/data において、すべてのデータ、テキスト転写、コード（GitHub）、再構成された表面をオープンなクリエイティブ・コモンズライセンスの下で公開することで、このプロジェクトは代替不可能なこれらの遺物が新たな研究のために利用可能であり続ける一方で、さらなる損傷を引き起こさずアクセスできることを確保している。

2026/06/26 0:33

IBM、1 ナノメートル未満のチップ技術を初披露

## Japanese Translation: 2026 年 6 月 25 日、IBM は Albany の研究拠点において、世界初のサブ 1 nm チップ技術を発表した。同技術は、ASML によって提供される High NA EUV リソグラフィーツールが間もなく設置される予定の同拠点を皮切りに展開され、革命的な「ナノスタック」と呼ばれる 3D アーキテクチャを採用している。この設計は、垂直方向に積層かつシフトさせたナノシートを有し、業界初となる構造により指爪大のダイ上にほぼ 1000 億個のトランジスターを集積し、IBM の前世代の 2 nm チップに対して約 2 倍の高い密度を実現している。公開された技術結果によれば、2 nm ノードに比べて最大 50% 高い性能と 70% 大きなエネルギー効率が可能であり、実験的な検証により機能動作する CMOS オペレーションおよび超薄膜絶縁体ボンディングの確認がなされた。ナノスタックアーキテクチャは各層内部の材料組み合わせを独立して最適化することを可能にし、SRAM メモリにおいて 40% のスケール改善を達成しており、高度な AI ワークロードに対応している。同技術は Albany 研究拠点での開発であり、Lam Research Corp.、Tokyo Electron、SCREEN Semiconductor Solutions との連携のもと実現されたものであり、アングストロムレベル製造時代への転換点を示すものである。ナノスタック技術の完全な生産導入は今後 5 年以内に期待されるが、IBM はこの構造が今後少なくとも 10 年規模のスケーリングを支援すると予測している。さらに IBM は、量子コンピューティングと半導体における双方向の専門知識を活用し、世界初の純粋な量子ファウンドリー「Anderon」を立ち上げる計画を発表した。 ## Text to translate: ## Summary: On June 25, 2026, IBM unveiled the world's first sub-1 nm chip technology at the 0.7 nm node, utilizing a revolutionary "nanostack" 3D architecture that vertically stacks and staggers nanosheets. This industry-first design integrates nearly 100 billion transistors onto a fingernail-sized die, achieving nearly double the density of IBM's previous 2 nm chips. Published technical results project up to 50% higher performance and 70% greater energy efficiency compared to the 2 nm node, with experimental validation confirming functional CMOS operation and ultra-thin dielectric bonding. The nanostack architecture also enables independent optimization of material combinations within each layer and demonstrated a 40% scaling improvement in SRAM memory, supporting advanced AI workloads. Developed at IBM's Albany research facility—which is soon to house High NA EUV lithography tools provided by ASML—in partnership with Lam Research Corp., Tokyo Electron, and SCREEN Semiconductor Solutions, the technology marks a shift into the angstrom-level manufacturing era. While full production adoption of nanostack technology is expected within five years, IBM projects this structure will support at least a decade of future scaling. Additionally, IBM announced plans to launch Anderon, the world's first pure-play quantum foundry, leveraging its dual expertise in quantum computing and semiconductors.