
2026/03/20 0:56
Show HN:新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Kitten TTS v0.8 – 軽量でオープンソースのテキスト→音声ライブラリ • モデル - kitten-tts-mini: 80 Mパラメータ、約80 MBディスク - kitten-tts-micro: 40 Mパラメータ、約41 MBディスク - kitten-tts-nano: 15 Mパラメータ、約56 MBディスク(int8バリアント ≈25 MB) • 特徴 - ONNXパイプラインを使用したCPUのみでの推論;GPUは不要。 - 8つの内蔵ボイス(Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo)。 - 発話速度調整と、数値・通貨・単位などに対応するテキスト前処理機能。 - 出力サンプリング周波数は24 kHz。 • クイックスタート
pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
from kitten_tts import KittenTTS tts = KittenTTS("kitten-tts-mini") audio = tts.generate(text="Hello, world!", voice="Bella", speed=1.0) tts.generate_to_file(text="Hi there", filename="hello.wav") print(tts.available_voices)
• システム要件: Linux/macOS/Windows、Python 3.8+、25–80 MBディスク空き領域。
• ロードマップ
- 最適化された推論エンジン
- モバイルSDK
- 高品質の多言語モデル
- KittenASR統合
• 商用サポート(統合作業支援、カスタムボイス開発、企業ライセンス)– info@stellonlabs.comまでご連絡ください。
• コミュニティ & ライセンス: Apache License 2.0; Discord, ウェブサイト kittenml.com, GitHub Issues で貢献・質問受付。
本文
Kitten TTS
新機能
Kitten TTS v0.8 がリリースされました – 15 M、40 M、80 M パラメータモデルが利用可能です。
Kitten TTS は ONNX をベースにしたオープンソースの軽量テキスト読み上げライブラリです。
15 M〜80 M パラメータ(ディスク容量 25–80 MB)のモデルを備え、GPU 不要で CPU 上でも高品質な音声合成が実現します。
- ステータス:開発者プレビュー – API はリリースごとに変更される可能性があります。
- 商用サポート あり。統合支援、カスタムボイス、エンタープライズライセンスについてはお問い合わせください。
目次
- 特徴
- 利用可能モデル
- デモ
- クイックスタート
- API リファレンス
- システム要件
- ロードマップ
- 商用サポート
- コミュニティ & サポート
- ライセンス
1. 特徴
- 超軽量 – モデルサイズは 25 MB(int8)〜80 MB、エッジデプロイに最適
- CPU 最適化 – ONNX ベースの推論で GPU 不要でも高速実行
- 8 内蔵ボイス:Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
- 音声速度調整 –
パラメータで再生速度を制御speed - テキスト前処理 – 数字・通貨・単位などのパイプライン処理を自動実行
- 24 kHz 出力 – 標準サンプルレートで高品質音声
2. 利用可能モデル
| モデル | パラメータ | サイズ | ダウンロード |
|---|---|---|---|
| 80 M | 80 MB | KittenML/kitten-tts-mini-0.8 |
| 40 M | 41 MB | KittenML/kitten-tts-micro-0.8 |
| 15 M | 56 MB | KittenML/kitten-tts-nano-0.8 |
| 15 M | 25 MB | KittenML/kitten-tts-nano-0.8-int8 |
注意:
モデルに関して、ユーザーからいくつかの不具合報告があります。問題が発生した場合は issue を開いてください。kitten-tts-nano-0.8-int8
3. デモ
(動画デモを埋め込むかリンクを貼る – 例:
final_vid.mp4)
オンラインで試す:
Kitten TTS on Hugging Face Spaces
4. クイックスタート
前提条件
- Python 3.8 以降
- pip
インストール
pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
基本使用例
from kittentts import KittenTTS model = KittenTTS("KittenML/kitten-tts-mini-0.8") audio = model.generate( "This high-quality TTS model runs without a GPU.", voice="Jasper" ) import soundfile as sf sf.write("output.wav", audio, 24000)
高度な使用例
# 音声速度を調整(デフォルト: 1.0) audio = model.generate("Hello, world.", voice="Luna", speed=1.2) # ファイルに直接保存 model.generate_to_file( "Hello, world.", "output.wav", voice="Bruno", speed=0.9 ) # 利用可能なボイス一覧を表示 print(model.available_voices) # ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']
5. API リファレンス
KittenTTS(model_name, cache_dir=None)
KittenTTS(model_name, cache_dir=None)Hugging Face Hub からモデルをロードします。
| パラメータ | 型 | デフォルト | 説明 |
|---|---|---|---|
| str | | Hugging Face リポジトリ ID |
| str | | ダウンロードしたモデルファイルのキャッシュ先 |
generate(text, voice, speed=1.0, clean_text=False)
generate(text, voice, speed=1.0, clean_text=False)テキストから音声を合成し、24 kHz の NumPy 配列で返します。
| パラメータ | 型 | デフォルト | 説明 |
|---|---|---|---|
| str | — | 合成する入力テキスト |
| str | | ボイス名(利用可能ボイス参照) |
| float | 1.0 | 音声速度倍率 |
| bool | False | テキスト前処理を行うか(数値・通貨展開等) |
generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)
generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)音声を合成し、指定ファイルに直接書き込みます。
| パラメータ | 型 | デフォルト | 説明 |
|---|---|---|---|
| str | — | 合成する入力テキスト |
| str | — | 保存先ファイルパス |
| str | | ボイス名 |
| float | 1.0 | 音声速度倍率 |
| int | 24000 | サンプリングレート(Hz) |
| bool | True | テキスト前処理を行うか |
available_voices
available_voices利用可能なボイス名のリストを返します。
['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']
6. システム要件
- OS:Linux, macOS, Windows
- Python:3.8 以降
- ハードウェア:CPU で動作、GPU 必須なし
- ディスク容量:モデル別に 25–80 MB
依存関係の衝突を避けるため、仮想環境(conda, venv 等)の使用が推奨されます。
7. ロードマップ
- 推論エンジン最適化版リリース
- モバイル SDK リリース
- より高品質な TTS モデルリリース
- 多言語対応 TTS リリース
- KittenASR リリース
他に必要な機能があればお知らせください。
8. 商用サポート
Kitten TTS を製品へ統合するチーム向けに商用サポートを提供しています。統合支援、カスタムボイス開発、エンタープライズライセンスなどが含まれます。
お問い合わせ:
info@stellonlabs.com
9. コミュニティ & サポート
- Discord:コミュニティに参加
- 公式サイト:kittenml.com
- カスタムサポート:リクエストフォーム
- メール:
info@stellonlabs.com - Issue:GitHub Issues
10. ライセンス
本プロジェクトは Apache License 2.0 の下でライセンスされています。