Show HN：新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です

Japanese Translation:

Kitten TTS v0.8 – 軽量でオープンソースのテキスト→音声ライブラリ

• モデル
  - kitten-tts-mini: 80 Mパラメータ、約80 MBディスク
  - kitten-tts-micro: 40 Mパラメータ、約41 MBディスク
  - kitten-tts-nano: 15 Mパラメータ、約56 MBディスク（int8バリアント ≈25 MB）

• 特徴
  - ONNXパイプラインを使用したCPUのみでの推論；GPUは不要。
  - 8つの内蔵ボイス（Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo）。
  - 発話速度調整と、数値・通貨・単位などに対応するテキスト前処理機能。
  - 出力サンプリング周波数は24 kHz。

• クイックスタート

pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl

from kitten_tts import KittenTTS

tts = KittenTTS("kitten-tts-mini")
audio = tts.generate(text="Hello, world!", voice="Bella", speed=1.0)
tts.generate_to_file(text="Hi there", filename="hello.wav")
print(tts.available_voices)

• システム要件: Linux/macOS/Windows、Python 3.8+、25–80 MBディスク空き領域。

• ロードマップ

最適化された推論エンジン

モバイルSDK

高品質の多言語モデル

KittenASR統合

• 商用サポート（統合作業支援、カスタムボイス開発、企業ライセンス）– info@stellonlabs.comまでご連絡ください。

• コミュニティ & ライセンス: Apache License 2.0; Discord, ウェブサイト kittenml.com, GitHub Issues で貢献・質問受付。

Kitten TTS

新機能

Kitten TTS v0.8 がリリースされました – 15 M、40 M、80 M パラメータモデルが利用可能です。

Kitten TTS は ONNX をベースにしたオープンソースの軽量テキスト読み上げライブラリです。
15 M〜80 M パラメータ（ディスク容量 25–80 MB）のモデルを備え、GPU 不要で CPU 上でも高品質な音声合成が実現します。

ステータス：開発者プレビュー – API はリリースごとに変更される可能性があります。
商用サポート あり。統合支援、カスタムボイス、エンタープライズライセンスについてはお問い合わせください。

超軽量 – モデルサイズは 25 MB（int8）〜80 MB、エッジデプロイに最適
CPU 最適化 – ONNX ベースの推論で GPU 不要でも高速実行
8 内蔵ボイス：Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
音声速度調整 –
```
speed
```
パラメータで再生速度を制御
テキスト前処理 – 数字・通貨・単位などのパイプライン処理を自動実行
24 kHz 出力 – 標準サンプルレートで高品質音声

2. 利用可能モデル

モデル	パラメータ	サイズ	ダウンロード
`kitten-tts-mini`	80 M	80 MB	KittenML/kitten-tts-mini-0.8
`kitten-tts-micro`	40 M	41 MB	KittenML/kitten-tts-micro-0.8
`kitten-tts-nano`	15 M	56 MB	KittenML/kitten-tts-nano-0.8
`kitten-tts-nano (int8)`	15 M	25 MB	KittenML/kitten-tts-nano-0.8-int8

注意：
kitten-tts-nano-0.8-int8
モデルに関して、ユーザーからいくつかの不具合報告があります。問題が発生した場合は issue を開いてください。

3. デモ

（動画デモを埋め込むかリンクを貼る – 例：

final_vid.mp4

）

オンラインで試す：
Kitten TTS on Hugging Face Spaces

4. クイックスタート

前提条件

Python 3.8 以降
pip

インストール

pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl

基本使用例

from kittentts import KittenTTS

model = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = model.generate(
    "This high-quality TTS model runs without a GPU.",
    voice="Jasper"
)

import soundfile as sf
sf.write("output.wav", audio, 24000)

高度な使用例

# 音声速度を調整（デフォルト: 1.0）
audio = model.generate("Hello, world.", voice="Luna", speed=1.2)

# ファイルに直接保存
model.generate_to_file(
    "Hello, world.",
    "output.wav",
    voice="Bruno",
    speed=0.9
)

# 利用可能なボイス一覧を表示
print(model.available_voices)
# ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

5. API リファレンス

KittenTTS(model_name, cache_dir=None)

Hugging Face Hub からモデルをロードします。

パラメータ	型	デフォルト	説明
`model_name`	str	`"KittenML/kitten-tts-nano-0.8"`	Hugging Face リポジトリ ID
`cache_dir`	str	`None`	ダウンロードしたモデルファイルのキャッシュ先

generate(text, voice, speed=1.0, clean_text=False)

テキストから音声を合成し、24 kHz の NumPy 配列で返します。

パラメータ	型	デフォルト	説明
`text`	str	—	合成する入力テキスト
`voice`	str	`"expr-voice-5-m"`	ボイス名（利用可能ボイス参照）
`speed`	float	1.0	音声速度倍率
`clean_text`	bool	False	テキスト前処理を行うか（数値・通貨展開等）

generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)

音声を合成し、指定ファイルに直接書き込みます。

パラメータ	型	デフォルト	説明
`text`	str	—	合成する入力テキスト
`output_path`	str	—	保存先ファイルパス
`voice`	str	`"expr-voice-5-m"`	ボイス名
`speed`	float	1.0	音声速度倍率
`sample_rate`	int	24000	サンプリングレート（Hz）
`clean_text`	bool	True	テキスト前処理を行うか

available_voices

利用可能なボイス名のリストを返します。

['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

6. システム要件

OS：Linux, macOS, Windows
Python：3.8 以降
ハードウェア：CPU で動作、GPU 必須なし
ディスク容量：モデル別に 25–80 MB

依存関係の衝突を避けるため、仮想環境（conda, venv 等）の使用が推奨されます。

7. ロードマップ

推論エンジン最適化版リリース
モバイル SDK リリース
より高品質な TTS モデルリリース
多言語対応 TTS リリース
KittenASR リリース

他に必要な機能があればお知らせください。

8. 商用サポート

Kitten TTS を製品へ統合するチーム向けに商用サポートを提供しています。統合支援、カスタムボイス開発、エンタープライズライセンスなどが含まれます。

お問い合わせ：

info@stellonlabs.com

9. コミュニティ & サポート

Discord：コミュニティに参加
公式サイト：kittenml.com
カスタムサポート：リクエストフォーム
メール：
```
info@stellonlabs.com
```
Issue：GitHub Issues

10. ライセンス

本プロジェクトは Apache License 2.0 の下でライセンスされています。

Show HN：新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です

Japanese Translation:

新機能

目次

1. 特徴

2. 利用可能モデル

3. デモ

4. クイックスタート

前提条件

インストール

基本使用例

高度な使用例

5. API リファレンス

`KittenTTS(model_name, cache_dir=None)`

`generate(text, voice, speed=1.0, clean_text=False)`

`generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)`

`available_voices`

6. システム要件

7. ロードマップ

8. 商用サポート

9. コミュニティ & サポート

10. ライセンス

同じ日のほかのニュース

Show HN：新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です

Japanese Translation:

新機能

目次

1. 特徴

2. 利用可能モデル

3. デモ

4. クイックスタート

前提条件

インストール

基本使用例

高度な使用例

5. API リファレンス

KittenTTS(model_name, cache_dir=None)

generate(text, voice, speed=1.0, clean_text=False)

generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)

available_voices

6. システム要件

7. ロードマップ

8. 商用サポート

9. コミュニティ & サポート

10. ライセンス

同じ日のほかのニュース

Show HN：新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です

`KittenTTS(model_name, cache_dir=None)`

`generate(text, voice, speed=1.0, clean_text=False)`

`generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)`

`available_voices`