**ダイナミック・ラージ・コンセプトモデル:適応的意味空間における潜在推論**

2026/01/09 1:31

**ダイナミック・ラージ・コンセプトモデル:適応的意味空間における潜在推論**

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

Dynamic Large Concept Models(DLCM)は、Xingwei Qu、Shaowen Wang、Zihao Huang、Kai Hua、Fan Yin、Rui‑Jie Zhu、Jundong Zhou、Qiyang Min、Zihao Wang、Yizhi Li、Tianyu Zhang、He Xing、Zheng Zhang、Yuxuan Song、Tianyu Zheng、Zhiyuan Zeng、Chenghua Lin、Ge Zhang、および Wenhao Huang によって導入された新しい階層的言語モデリングフレームワークです。DLCMはデータから直接可変長の「概念」を学習し、事前に定義された言語単位に依存せずにエンドツーエンドで意味境界を発見します。このモデルは計算を個々のトークンから圧縮された概念空間へシフトし、トークンレベル容量、概念レベル推論容量、および全体的な圧縮率を分離する圧縮対応スケーリング法則を使用します。μPパラメータ化の解耦により、再訓練なしで異なるモデル幅と圧縮設定間でゼロショットハイパーパラメータ転送が可能です。

実際には、4倍(概念あたり平均4トークン)の圧縮率を使用すると、DLCMは推論計算の約3分の1をより高容量の推論バックボーンに再配分します。この再配分により、12 のゼロショットベンチマークで平均 +2.69 % の改善が得られ、総浮動小数点演算(FLOPs)は一定に保たれます。アプローチはトークンレベルの計算を削減し推論品質を向上させることで、大規模言語モデルのより効率的なデプロイメントを可能にし、固定された計算予算で運用する開発者や企業に利益をもたらします。

本論文は PDF および実験 HTML フォーマットで入手できます。提出履歴では、v1 が 2025年12月31日に (2,886 KB) 提出され、v2 が 2026年1月5日に (2,887 KB) に更新されています。

本文

著者:
ク・シンウェイ、ワン・シャオウェン、ファン・ズハオ、ホア・カイ、イン・ファン、チュ―ジエー・ズ(Rui‑Jie Zhu)、ジョンドン・ズー、ミン・キヤン、ワン・ズハオ、リ・イージ(Yizhi Li)、ジャン・ティアンユウ、ヘ・シン、ジャング・ゼン、ソン・ユクエン、チェン・ターニュ、ジエン・ザン、リン・チョンフア、チャン・ズ、ウェンハオ・ファン

PDF | HTML(実験的)を表示


要旨

大規模言語モデル(LLM)は全てのトークンに対して均一な計算量を割り当てますが、言語は情報密度が極めて不均一です。この「トークン単位での均一処理」では、局所的に予測可能な部分に過剰なリソースが使われ、意味的に重要な遷移に対して計算量が不足します。
本研究では Dynamic Large Concept Models (DLCM) を提案します——これは階層型言語モデリングフレームワークであり、潜在表現から語義境界を学習し、トークン単位の処理から、推論がより効率的に行える圧縮された「概念空間」へと計算リソースをシフトします。DLCM は事前定義された言語単位に依存せず、エンドツーエンドで可変長の概念を発見します。階層的な圧縮はスケーリング挙動を根本的に変えます。

さらに、圧縮感知型スケーリング法則 を初めて導入し、トークンレベルの容量、概念レベルでの推論容量、および圧縮率を分離します。これにより、固定 FLOPs の下で計算資源を原理的に割り当てることが可能になります。
このヘテロジニアス構造を安定して訓練するために、幅と圧縮レベルを横断した デコップリング μP パラメータ化 を開発しました。これにより、ゼロショットでハイパーパラメータの転送が実現します。

実用設定(R = 4、概念あたり平均 4 トークン)では、DLCM は推論計算量の約三分の一を高容量推論バックボーンへ再配分し、12 のゼロショットベンチマークで +2.69 % の平均改善を達成しました(推論 FLOPs を合わせた場合)。


提出履歴

  • 送信者:ク・シンウェイ(メール閲覧)
    • v1: 2025年12月31日(水)04:19:33 UTC(2,886 KB)
    • v2: 2026年01月05日(月)05:44:29 UTC(2,887 KB)

同じ日のほかのニュース

一覧に戻る →

2026/01/09 4:54

**200 行以内で書く Claude スタイルプログラムの作り方** 1. **目標を定義する** * プログラムが解決すべき問題(例:テキスト生成、データ分析など)を決める。 * 必要な入力・出力、および制約事項を概略化する。 2. **適切な言語とライブラリを選ぶ** * 迅速なプロトタイピングには Python を推奨。 * `openai` や `anthropic` SDK を使用し、必要最低限のモジュール(例:`json`、`time`)のみインポートする。 3. **コード構成** ```python # 1️⃣ インポート import os, json, time from anthropic import Anthropic # 2️⃣ 設定 api_key = os.getenv("ANTHROPIC_API_KEY") client = Anthropic(api_key=api_key) # 3️⃣ コア関数 def generate_text(prompt: str, max_tokens: int = 200) -> str: response = client.completions.create( model="claude-2.1", prompt=prompt, max_tokens_to_sample=max_tokens, temperature=0.7, ) return response.completion # 4️⃣ ユーティリティ関数 def save_output(text: str, path: str) -> None: with open(path, "w", encoding="utf-8") as f: f.write(text) # 5️⃣ メインフロー if __name__ == "__main__": prompt = input("Enter your prompt: ") result = generate_text(prompt) print("\nGenerated Text:\n", result) save_output(result, "output.txt") ``` 4. **200 行以内に収める** * 不要なコメントや冗長なログを避ける。 * 繰り返しコードの代わりに簡潔なヘルパー関数を使う。 5. **テストと検証** * `generate_text` と `save_output` 用に単純なユニットテストを書く。 * 複数サンプルプロンプトでスクリプトが安定して動作するか確認する。 6. **パッケージング(任意)** * `requirements.txt` を追加: ``` anthropic==0.3.2 python-dotenv==1.0.0 ``` * セットアップと使い方を簡潔に説明した README を用意する。 7. **最終チェックリスト** * 未使用のインポートや変数がないこと。 * 文字列はすべて `utf-8` でエンコードされていること。 * 新しい環境でもエラーなく実行できること。 このテンプレートに沿えば、200 行以内でクリーンかつ機能的な Claude スタイルプログラムが完成します。実験・拡張・デプロイの準備は万端です。

## Japanese Translation: (to address missing elements while keeping clarity):** > 本記事では、JSON形式のツール呼び出し(`read_file`、`list_files`、`edit_file`)を介してLLMと対話し、ディスク上のファイルを操作する軽量なコーディングエージェントの構築方法を示します。 > エージェントのコアループは、ユーザーからの自然言語リクエストをLLMに送信し、そのJSONレスポンスからツール呼び出しを解析して対応するローカル関数を実行し、結果を会話へフィードバックします。ツールが要求されなくなるまでこのプロセスを繰り返します。各ツールは構造化された辞書を返します(`read_file` → `{file_path, content}`、`list_files` → `{path, entries}`、`edit_file` → テキストの作成または置換)。 > システムプロンプトは自動的に生成され、各ツールの名前・説明(docstringから取得)とシグネチャを列挙することでLLMが正しく呼び出せるようにします。例ではAnthropic API経由でClaude Sonnet 4を使用していますが、クライアント初期化部分を書き換えるだけで任意のLLMプロバイダーへ切り替え可能です。 > 実装はインポート、環境変数読み込み(`dotenv`)、ターミナルカラー補助関数、および`resolve_abs_path`ヘルパーを含めて約200行のPythonコードです。プロダクション向けエージェント(例:Claude Code)は、このパターンにgrep、bash、websearchなど追加ツールや高度なエラーハンドリング、ストリーミングレスポンス、要約機能、および破壊的操作の承認ワークフローを組み込んでいます。 > 読者は新しいツールを追加したりLLMプロバイダーを切替えたりして、最小限のボイラープレートで高度なコーディング支援が実現できることを体験できます。 この改訂された概要は主要なポイントをすべて網羅し、未支持の推測を避けつつメインメッセージを明確に保ち、あいまい表現を削除しています。

2026/01/09 5:37

**Sopro TTS:** CPU 上で動作し、ゼロショット音声クローン機能を備えた 1,690 万パラメータのモデル。

## Japanese Translation: ``` ## Summary Soproは、1億6900万パラメータで構築された軽量な英語テキスト・トゥー・スピーチシステムです。リアルタイムのストリーミング合成と、わずか数秒の参照音声からのゼロショットボイスクラーニングを提供します。そのアーキテクチャは重いTransformerをドリーテッドWaveNetスタイルの畳み込みと軽量なクロスアテンション層に置き換え、M3コアマシンでCPUリアルタイム係数0.25(約7.5秒で30秒分の音声生成)を達成します。モデルは依存関係が最小限で、PyTorch 2.6.0のみを必要とし、低スペックハードウェアでも効率的に動作します。 Soproは単純なPython API(`SoproTTS.synthesize`)、コマンドラインインターフェイス(`soprotts …`)、およびUvicornまたはDockerで起動できる対話型Webデモを通じて、非ストリーミング(`SoproTTS.synthesize`)とストリーミング(`SoproTTS.stream`)の両方のモードをサポートします。ストリーミング出力は非ストリーミングモードとビットレベルで完全に一致しないため、最高品質を求めるユーザーは非ストリーミング合成を使用することが推奨されます。 トレーニングにはEmilia YODAS、LibriTTS‑R、Mozilla Common Voice 22、およびMLSなどの公開コーパスからデータが採用され、WaveNet、Attentive Stats Pooling、AudioLM、CSMといった確立された手法を組み込んでいます。ボイスクラーニングの品質はマイクロフォンの品質に依存し、システムは略語よりも音素レベルの参照音声を好みます。 Soproは低リソースフットプリント、CPUフレンドリー、そして簡単な統合性を備えているため、チャットボット、アクセシビリティツール、組み込みデバイス、および軽量TTSと高品質ボイスクラーニングが必要なリアルタイムアプリケーションに最適です。 ```

2026/01/09 0:07

ボーズは古いスマートスピーカーをブリック化せず、オープンソースとして公開しています。

## Japanese Translation: **修正版要約** ボーズは、サウンドタッチスマートスピーカーのAPIドキュメントをオープンソース化することを発表し、公式クラウドサポートを2026年5月6日まで延長しました。これは元々計画されていた期間より約6か月長いものです。また、新しいサウンドタッチアプリの更新ではローカル制御が追加されるため、ユーザーはクラウドサービス終了後も機能を維持できます。Bluetooth、AirPlay、Spotify Connect、および物理的なAUX接続を通じて音楽ストリーミングを継続でき、グループ化、初期設定、構成などのリモートコントロール機能も動作します。APIをオープンソースにすることで、ボーズはクラウドサービス停止によって残されたギャップを埋めるカスタムツールを開発者が構築できるようにしています。この動きは、公式シャットダウン後にデバイス機能を維持したPebbleのRebble Allianceなど、コミュニティ主導の取り組みと共鳴します。

**ダイナミック・ラージ・コンセプトモデル:適応的意味空間における潜在推論** | そっか~ニュース