
2026/01/13 5:26
ファブリス・ベルラール氏のTS Zip(2024)
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
概要
ts_zip は、GPU を活用したテキスト圧縮ツールであり、RWKV 169M v4 大規模言語モデル(パラメータを 8 ビットに量子化し、BF16 で評価)を使用してトークン確率を予測し、その予測に基づいて算術符号化を適用します。従来のツールよりも高い圧縮率を達成しています:
- alice29.txt – 1.142 bpb(21,713 B)
- book1 – 1.431 bpb(137,477 B)
- enwik8 – 1.106 bpb(13,825,741 B)
- enwik9 – 1.084 bpb(135,443,237 B)
- linux‑1.2.13.tar – 1.021 bpb(1,196,859 B)。
RTX 4090 上では、ツールは約 1 MB/s の速度で圧縮し、同程度の速度で解凍します。システムに少なくとも 4 GB の RAM があることが前提です。ts_zip は実験的なものであり、バージョン間の後方互換性は保証されません。また、その性能評価は GPU/CPU またはスレッド数に依存せず、決定論的に行われます。この手法はプレーンテキストファイルで最も効果を発揮し、バイナリデータではエントロピーの削減がほとんど得られません。主に英語で訓練されていますが、他言語やソースコードにも比較的適切に対応します。
ダウンロードリンク:
- Linux tarball:
ts_zip‑2024‑03‑02.tar.gz - Windows ZIP:
ts_zip‑2024‑03‑02-win64.zip
将来のリリースでは、圧縮率をさらに向上させ、言語サポートを拡大し、可能ならファイルタイプの取り扱いを追加しつつ、ハードウェア間で評価が再現できるようにすることを目指します。GPU リソースを持つユーザー(データアーカイブ担当者や大量テキストコーパスを管理する開発者など)にとって、速度を犠牲にせず高い圧縮率を実現できる最適なツールです
本文
ts_zip ユーティリティ
ts_zip は、大規模言語モデルを利用してテキストファイルの圧縮(および、可能であれば解凍)を行うツールです。従来の圧縮ソフトに比べて圧縮率が大幅に向上しています。以下に注意点をまとめます。
-
ハードウェア要件
- GPU が必要です(速度を実現するため)。
- RAM は最低でも 4 GB 必須です。
-
パフォーマンス
- 従来の圧縮ツールより遅く、RTX 4090 では約 1 MB/s 程度です。
-
サポートファイル形式
- テキストファイルのみが対象で、バイナリファイルはほぼ圧縮できません。
-
モデル詳細
- 現在は RWKV 169M v4 モデルを使用し、主に英語テキストで学習しています。
- 他言語やソースコードもサポート対象です。
-
バージョン互換性
- 実験的なツールのため、バージョン間の後方互換性は保証できません。
-
関連ツール
- 小規模メッセージ圧縮には ts_sms を参照してください。
圧縮率
比率は「ビット/バイト (bpb)」で表します。
| ファイル | 元のサイズ(bytes) | xz (bpb) | ts_zip (bpb) |
|---|---|---|---|
| alice29.txt | 152,089 | 2.551 | 1.142 |
| book1 | 768,771 | 2.717 | 1.431 |
| enwik8 | 100,000,000 | 1.989 | 1.106 |
| enwik9 | 1,000,000,000 | 1.707 | 1.084 |
| linux‑1.2.13.tar | 9,379,840 | 1.441 | 1.021 |
enwik8 と enwik9 に対する他のプログラムの結果と速度は、Large Text Compression Benchmark で確認できます。
ダウンロード
- Linux:
ts_zip-2024-03-02.tar.gz - Windows:
ts_zip-2024-03-02-win64.zip
技術情報
- ts_zip は RWKV 169M v4 言語モデルを使用しています。速度と圧縮率のバランスが取れたモデルです。
- モデルはパラメータあたり8ビットで量子化され、BF16 浮動小数点数で評価されます。
- モデルはトークン確率を予測し、その後算術符号器が各トークンをエンコードします。
- 評価は決定的かつ再現可能であり、GPU/CPU の種類やスレッド数に依存しません。そのため、圧縮されたファイルは異なるハードウェア・ソフトウェア構成でも解凍できます。
Fabrice Bellard – https://bellard.org/