ファブリス・ベルラール氏のTS Zip(2024)

2026/01/13 5:26

ファブリス・ベルラール氏のTS Zip(2024)

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

概要
ts_zip は、GPU を活用したテキスト圧縮ツールであり、RWKV 169M v4 大規模言語モデル(パラメータを 8 ビットに量子化し、BF16 で評価)を使用してトークン確率を予測し、その予測に基づいて算術符号化を適用します。従来のツールよりも高い圧縮率を達成しています:

  • alice29.txt – 1.142 bpb(21,713 B)
  • book1 – 1.431 bpb(137,477 B)
  • enwik8 – 1.106 bpb(13,825,741 B)
  • enwik9 – 1.084 bpb(135,443,237 B)
  • linux‑1.2.13.tar – 1.021 bpb(1,196,859 B)。

RTX 4090 上では、ツールは約 1 MB/s の速度で圧縮し、同程度の速度で解凍します。システムに少なくとも 4 GB の RAM があることが前提です。ts_zip は実験的なものであり、バージョン間の後方互換性は保証されません。また、その性能評価は GPU/CPU またはスレッド数に依存せず、決定論的に行われます。この手法はプレーンテキストファイルで最も効果を発揮し、バイナリデータではエントロピーの削減がほとんど得られません。主に英語で訓練されていますが、他言語やソースコードにも比較的適切に対応します。

ダウンロードリンク:

  • Linux tarball:
    ts_zip‑2024‑03‑02.tar.gz
  • Windows ZIP:
    ts_zip‑2024‑03‑02-win64.zip

将来のリリースでは、圧縮率をさらに向上させ、言語サポートを拡大し、可能ならファイルタイプの取り扱いを追加しつつ、ハードウェア間で評価が再現できるようにすることを目指します。GPU リソースを持つユーザー(データアーカイブ担当者や大量テキストコーパスを管理する開発者など)にとって、速度を犠牲にせず高い圧縮率を実現できる最適なツールです

本文

ts_zip ユーティリティ

ts_zip は、大規模言語モデルを利用してテキストファイルの圧縮(および、可能であれば解凍)を行うツールです。従来の圧縮ソフトに比べて圧縮率が大幅に向上しています。以下に注意点をまとめます。

  • ハードウェア要件

    • GPU が必要です(速度を実現するため)。
    • RAM は最低でも 4 GB 必須です。
  • パフォーマンス

    • 従来の圧縮ツールより遅く、RTX 4090 では約 1 MB/s 程度です。
  • サポートファイル形式

    • テキストファイルのみが対象で、バイナリファイルはほぼ圧縮できません。
  • モデル詳細

    • 現在は RWKV 169M v4 モデルを使用し、主に英語テキストで学習しています。
    • 他言語やソースコードもサポート対象です。
  • バージョン互換性

    • 実験的なツールのため、バージョン間の後方互換性は保証できません。
  • 関連ツール

    • 小規模メッセージ圧縮には ts_sms を参照してください。

圧縮率

比率は「ビット/バイト (bpb)」で表します。

ファイル元のサイズ(bytes)xz (bpb)ts_zip (bpb)
alice29.txt152,0892.5511.142
book1768,7712.7171.431
enwik8100,000,0001.9891.106
enwik91,000,000,0001.7071.084
linux‑1.2.13.tar9,379,8401.4411.021

enwik8enwik9 に対する他のプログラムの結果と速度は、Large Text Compression Benchmark で確認できます。


ダウンロード

  • Linux:
    ts_zip-2024-03-02.tar.gz
  • Windows:
    ts_zip-2024-03-02-win64.zip

技術情報

  • ts_zip は RWKV 169M v4 言語モデルを使用しています。速度と圧縮率のバランスが取れたモデルです。
    • モデルはパラメータあたり8ビットで量子化され、BF16 浮動小数点数で評価されます。
  • モデルはトークン確率を予測し、その後算術符号器が各トークンをエンコードします。
  • 評価は決定的かつ再現可能であり、GPU/CPU の種類やスレッド数に依存しません。そのため、圧縮されたファイルは異なるハードウェア・ソフトウェア構成でも解凍できます。

Fabrice Bellard – https://bellard.org/

同じ日のほかのニュース

一覧に戻る →

2026/01/13 4:27

了解しました!内容は明確で簡潔に保ちます。余分な改行や不必要な記号は入れず、リストがある場合は読みやすいようにきちんとインデントします。他にご要望がございましたら、お気軽にお知らせくださいね!

## Japanese Translation: **改訂された概要** CoworkはClaude Maxをベースにしたリサーチプレビュー・ツールで、現在はmacOSアプリを通じてMaxサブスクライバー向けに利用可能です。ユーザーが自分のコンピュータ上の特定フォルダへのClaudeのアクセス権を付与すると、そのフォルダ内のファイルを読み取り・編集・作成できるようになります。これにより、ダウンロードの整理、スクリーンショットからスプレッドシートを生成すること、散在したメモからレポートをドラフトするなどのタスクが便利に行えます。 標準的なチャットとは異なり、CoworkはAIにより大きな主体性を与えます。AIはタスクを計画し、実行し、進捗状況を提供します。このツールはClaude Codeと基盤を共有しており、非コーディングの文脈でもコード風の対話が可能です。ユーザーは既存のコネクター(例:ドキュメントやプレゼンテーション)をリンクしたり、Chromeとのペアリングでウェブ閲覧を行ったりして機能を拡張できます。AIは複数タスクをキューに入れ、並列実行することで前後のチャットを減らします。 制御権はユーザーに残ります:Claudeが見るフォルダとコネクターを選択し、大きな操作を行う前にプロンプトが表示されます。ただし、誤った指示でファイルが削除されたり、プロンプトインジェクションが発生するリスクもあるため、安全対策は継続的に開発中です。 このプレビューはフィードバックを集めることを目的としており、将来のリリースではデバイス間同期、Windowsサポート、強化された安全機能、および拡張されたコネクターオプションが追加される可能性があります。Coworkは個人向けにファイル整理を効率化し、手動監視を保ちながらファイルベースのワークフローを自動化する制御可能なAIアシスタントとして設計されています。

2026/01/13 1:04

**TimeCapsuleLLM:** 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)

## Japanese Translation: ``` ## Summary TimeCapsule LLM プロジェクトは、歴史的な英語データのみを使用して言語モデルをゼロから構築し、現代のバイアス(「Selective Temporal Training」)を排除します。 - **Model evolution** - *v0* (16 M パラメータ、nanoGPT ベース) は約187 MB の1800年代テキストで訓練され、1800年代風の言語を生成しましたが、一貫性のない文になりました。 - *v0.5* (123 M パラメータ、引き続き nanoGPT) はコーパスを約435 MB に拡張し、文法・句読点を改善しましたが、高い幻覚と OCR ノイズに悩まされました。 - *v1* (700 M パラメータ、Phi 1.5 ベース) は約6.25 GB のデータで訓練され、歴史的事件や人物を正確に思い出せるようになりました。 - *v2mini‑eval1* (300 M パラメータ、90 GB London コーパス全体の15 GBサンプル) はわずか10 K ステップで訓練され、トークナイズ問題により「Who is Charles Dickens?」のような文字化けした出力が生成されました。 - *v2mini‑eval2* (v2mini‑eval1 と同じサイズ・データ) はチャールズ・ダーウィンについて極めて不連続なテキストを生成しました。 - **Dataset** 完全版 v2 データセットは1800–1875 年のロンドン テキストで 90 GB を含み、136,344 ドキュメントから構成されています。15 GB のサンプルは Hugging Face(https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB)で公開されています。 - **Training setup** *v0/v0.5* は GeForce RTX 4060 GPU、i5‑13400F CPU、および 16 GB RAM を使用しました。 *v1* と *v2mini‑eval1* はレンタル NVIDIA A100 SXM GPU 上で訓練されました。 - **Tokenization & evaluation** 時代固有のスペリングと語彙に対応するカスタムトークナイザー(vocab.json & merges.txt)を構築しました。出力は言語的正確さ、幻覚率、およびトークナイズ品質で評価され、バイアス統計は別途 v2 バイアスレポートに記載されています。 - **Future work** 今後の計画として、完全版 90 GB v2 データセットへの拡張、トークナイザーパイプラインの改良、およびより深いバイアス分析を実施します。 - **Impact** このプロジェクトは、歴史家・教育者・AI‑ethics 開発者が時代に即した言語モデルを必要とする際に有益であり、現代バイアスを減らすための時間的選択訓練(temporal selective training)の具体例として NLP コミュニティにも貢献します。 ```

2026/01/13 2:41

郵便裁定取引

## Japanese Translation: 著者は、Amazon Prime を使って非常に安価で実際の贈り物を送ることができると示しています。すべての商品は 0.78 ドル未満で、1〜2 日以内に無料配送されます。具体的に 78 セント以下で Prime 無料配送が適用される商品を列挙することで、シンプルで低コストのパッケージでも個人的な印象を与えられることを示しています。代表例として、トマトソースのボトルを無料のギフトメモと組み合わせると、普通の誕生日が思い出に残るサプライズへと変わります。2023 年には、著者は拡張家族に 1 ドルの缶詰豆を送付し、その結果、活気あるグループチャットが発生し、受取人はアスベスト警告ラベルや妊娠検査薬などの奇妙なアイテムを返してきました。この記事では、この予算に優しい迅速配送手段が、心のこもった物理的トークンを共有するための従来のポストカードの人気代替策になる可能性があると示唆しています。(サイトは Amazon と提携・承認されていません。)

ファブリス・ベルラール氏のTS Zip(2024) | そっか~ニュース