Show HN:新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です

2026/03/20 0:56

Show HN:新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Kitten TTS v0.8 – 軽量でオープンソースのテキスト→音声ライブラリ

• モデル
  - kitten-tts-mini: 80 Mパラメータ、約80 MBディスク
  - kitten-tts-micro: 40 Mパラメータ、約41 MBディスク
  - kitten-tts-nano: 15 Mパラメータ、約56 MBディスク(int8バリアント ≈25 MB)

• 特徴
  - ONNXパイプラインを使用したCPUのみでの推論;GPUは不要。
  - 8つの内蔵ボイス(Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo)。
  - 発話速度調整と、数値・通貨・単位などに対応するテキスト前処理機能。
  - 出力サンプリング周波数は24 kHz。

• クイックスタート
pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
from kitten_tts import KittenTTS

tts = KittenTTS("kitten-tts-mini")
audio = tts.generate(text="Hello, world!", voice="Bella", speed=1.0)
tts.generate_to_file(text="Hi there", filename="hello.wav")
print(tts.available_voices)

• システム要件: Linux/macOS/Windows、Python 3.8+、25–80 MBディスク空き領域。

• ロードマップ

  • 最適化された推論エンジン
  • モバイルSDK
  • 高品質の多言語モデル
  • KittenASR統合

• 商用サポート(統合作業支援、カスタムボイス開発、企業ライセンス)– info@stellonlabs.comまでご連絡ください。

• コミュニティ & ライセンス: Apache License 2.0; Discord, ウェブサイト kittenml.com, GitHub Issues で貢献・質問受付。

本文

Kitten TTS


新機能

Kitten TTS v0.8 がリリースされました – 15 M、40 M、80 M パラメータモデルが利用可能です。

Kitten TTS は ONNX をベースにしたオープンソースの軽量テキスト読み上げライブラリです。
15 M〜80 M パラメータ(ディスク容量 25–80 MB)のモデルを備え、GPU 不要で CPU 上でも高品質な音声合成が実現します。

  • ステータス:開発者プレビュー – API はリリースごとに変更される可能性があります。
  • 商用サポート あり。統合支援、カスタムボイス、エンタープライズライセンスについてはお問い合わせください。

目次

  1. 特徴
  2. 利用可能モデル
  3. デモ
  4. クイックスタート
  5. API リファレンス
  6. システム要件
  7. ロードマップ
  8. 商用サポート
  9. コミュニティ & サポート
  10. ライセンス

1. 特徴

  • 超軽量 – モデルサイズは 25 MB(int8)〜80 MB、エッジデプロイに最適
  • CPU 最適化 – ONNX ベースの推論で GPU 不要でも高速実行
  • 8 内蔵ボイス:Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
  • 音声速度調整
    speed
    パラメータで再生速度を制御
  • テキスト前処理 – 数字・通貨・単位などのパイプライン処理を自動実行
  • 24 kHz 出力 – 標準サンプルレートで高品質音声

2. 利用可能モデル

モデルパラメータサイズダウンロード
kitten-tts-mini
80 M80 MBKittenML/kitten-tts-mini-0.8
kitten-tts-micro
40 M41 MBKittenML/kitten-tts-micro-0.8
kitten-tts-nano
15 M56 MBKittenML/kitten-tts-nano-0.8
kitten-tts-nano (int8)
15 M25 MBKittenML/kitten-tts-nano-0.8-int8

注意

kitten-tts-nano-0.8-int8
モデルに関して、ユーザーからいくつかの不具合報告があります。問題が発生した場合は issue を開いてください。


3. デモ

(動画デモを埋め込むかリンクを貼る – 例:

final_vid.mp4

オンラインで試す:
Kitten TTS on Hugging Face Spaces


4. クイックスタート

前提条件

  • Python 3.8 以降
  • pip

インストール

pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl

基本使用例

from kittentts import KittenTTS

model = KittenTTS("KittenML/kitten-tts-mini-0.8")
audio = model.generate(
    "This high-quality TTS model runs without a GPU.",
    voice="Jasper"
)

import soundfile as sf
sf.write("output.wav", audio, 24000)

高度な使用例

# 音声速度を調整(デフォルト: 1.0)
audio = model.generate("Hello, world.", voice="Luna", speed=1.2)

# ファイルに直接保存
model.generate_to_file(
    "Hello, world.",
    "output.wav",
    voice="Bruno",
    speed=0.9
)

# 利用可能なボイス一覧を表示
print(model.available_voices)
# ['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

5. API リファレンス

KittenTTS(model_name, cache_dir=None)

Hugging Face Hub からモデルをロードします。

パラメータデフォルト説明
model_name
str
"KittenML/kitten-tts-nano-0.8"
Hugging Face リポジトリ ID
cache_dir
str
None
ダウンロードしたモデルファイルのキャッシュ先

generate(text, voice, speed=1.0, clean_text=False)

テキストから音声を合成し、24 kHz の NumPy 配列で返します。

パラメータデフォルト説明
text
str合成する入力テキスト
voice
str
"expr-voice-5-m"
ボイス名(利用可能ボイス参照)
speed
float1.0音声速度倍率
clean_text
boolFalseテキスト前処理を行うか(数値・通貨展開等)

generate_to_file(text, output_path, voice="expr-voice-5-m", speed=1.0, sample_rate=24000, clean_text=True)

音声を合成し、指定ファイルに直接書き込みます。

パラメータデフォルト説明
text
str合成する入力テキスト
output_path
str保存先ファイルパス
voice
str
"expr-voice-5-m"
ボイス名
speed
float1.0音声速度倍率
sample_rate
int24000サンプリングレート(Hz)
clean_text
boolTrueテキスト前処理を行うか

available_voices

利用可能なボイス名のリストを返します。

['Bella', 'Jasper', 'Luna', 'Bruno', 'Rosie', 'Hugo', 'Kiki', 'Leo']

6. システム要件

  • OS:Linux, macOS, Windows
  • Python:3.8 以降
  • ハードウェア:CPU で動作、GPU 必須なし
  • ディスク容量:モデル別に 25–80 MB

依存関係の衝突を避けるため、仮想環境(conda, venv 等)の使用が推奨されます。


7. ロードマップ

  • 推論エンジン最適化版リリース
  • モバイル SDK リリース
  • より高品質な TTS モデルリリース
  • 多言語対応 TTS リリース
  • KittenASR リリース

他に必要な機能があればお知らせください。


8. 商用サポート

Kitten TTS を製品へ統合するチーム向けに商用サポートを提供しています。統合支援、カスタムボイス開発、エンタープライズライセンスなどが含まれます。

お問い合わせ:

info@stellonlabs.com


9. コミュニティ & サポート

  • Discord:コミュニティに参加
  • 公式サイトkittenml.com
  • カスタムサポート:リクエストフォーム
  • メール
    info@stellonlabs.com
  • Issue:GitHub Issues

10. ライセンス

本プロジェクトは Apache License 2.0 の下でライセンスされています。

同じ日のほかのニュース

一覧に戻る →

2026/03/20 5:33

コックピットは、サーバー用のウェブベースのグラフィカルインターフェイスです。

## Japanese Translation: **Cockpit** は、Linux 管理者がオペレーティングシステムから直接サーバーを管理できる軽量でブラウザベースのインターフェイスです。OS 内で動作し、Debian、Fedora、および RHEL など主要なディストリビューションに対応しており、コンテナの起動、ストレージやネットワークの設定、ログの確認、ブラウザを離れずにターミナルとグラフィカルコントロール間で切替えなどが可能です。 ユーザーは Cockpit からでも従来のシェルからでもサービスをシームレスに開始・停止でき、端末で発生したエラーは自動的に Cockpit のジャーナルインターフェイスに表示されます。 プロジェクトはリモート管理もサポートしており、ユーザーは SSH 経由で Cockpit がインストールされた他のマシンを追加・管理できるため、ホスト切替が簡単です。コミュニティサポートは Matrix チャネル(#cockpit:fedoraproject.org)とメールリストで提供されます。ドキュメントにはツールの使い方だけでなくコードベースへの貢献方法も網羅しており、ガイディングプリンシプル、リリースノート、およびプライバシーポリシーが含まれています。 複数の Linux ディストリビューションにわたる統一で使いやすい GUI を提供することで、Cockpit はサーバー管理を効率化し、ドキュメントと活発なコミュニケーションチャネルを通じて継続的な開発者貢献を促進することを目指しています。

2026/03/19 22:05

**Astral が OpenAI に参入**

## Japanese Translation: **(欠落していた詳細を補完)** ### 要約 Astral は、オープンソースの Python ツールを存続させつつ OpenAI の Codex チームに参加することに合意し、そのツールチェーンをモダンな Python 開発の中心に位置付けました。この取引は Astral の創業者が発表し、Python エコシステムの生産性を少なくとも 1 % 向上させる高レバレッジ戦略を強調しています。Ruff(高速リンター)、uv(依存関係解決ツール)、ty といった人気ツールへの継続的なサポートが含まれ、これらを Codex の AI コーディングアシスタントに統合する計画です。Astral のツールチェーンはゼロから数億件の月間ダウンロードへと成長し、Accel が主導した Casey Aylward 氏によるシード資金調達と Andreessen Horowitz が牽引した Jennifer Li 氏によるシリーズ B 資金調達で支えられています。創業者は Astral チームのユーザー重視の製品品質に感謝し、今後も高い基準を維持するとともに、ユーザーの信頼への感謝を表明しました。買収後、Astral はオープンソース提供物の開発を継続し、それらを Codex と統合し、ソフトウェアエンジニアリングにおける影響力を拡大します。これにより、開発者・企業・広範なエコシステムは、生産性を加速させる AI 強化型の堅牢な Python ユーティリティ―基盤となるツールセット―を享受できます。

2026/03/20 2:16

Google、未認証Androidアプリをサイドロードするための新しい24時間プロセスを発表

## Japanese Translation: Googleは2025年後半にAndroid向けの開発者認証プログラムを開始し、開発者が認証されていない場合はサイドロードされたアプリをブロックすることでマルウェアリスクを低減することを目指します。開発者は本人確認書類を提出し、アプリ署名キーをアップロードし、25ドルの手数料を支払う必要があります。 ユーザーは「未認証パッケージを許可」オプションを有効にして認証を回避できます。設定方法は、ビルド番号を7回タップして開発者向けオプションを解除し、スイッチを切り替えてPIN/パスワードで確認し、デバイスを再起動します。その後24時間待ち、次に「一時的に許可」または「無期限に許可」を選択します。24時間の遅延は、高度なソーシャルエンジニアリング攻撃を抑止するためです。 Googleは非Playソースからマルウェアに遭遇する確率が約50倍高いと引用し、このプログラムでそのリスクを低減すると主張しています。検証機能はすでにAndroid 16.1(2025年後半にリリース)に組み込まれており、全てのサポート対象デバイスで利用可能です。実施開始はブラジル、シンガポール、インドネシア、タイで2025年9月から行われ、2026年には世界中へ展開されます。 このプログラムは手数料などのハードルを追加するため、制裁対象国の開発者にとって不利になる可能性がありますが、Googleはその方針がそのような開発者を排除することを意図していないとし、検証済み開発者リストを非永続化に保ち法的課題を回避すると述べています。プライバシー擁護派は検証済み開発者のデータベースについて懸念を示し続けています。

Show HN:新しい3つのKitten TTSモデル ― 最小サイズは25 MB未満です | そっか~ニュース