
2026/03/03 23:30
**Launch HN:** **Cekura(YC F24)** – 音声・チャットAIエージェントのテストと監視機能を提供します
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
## Summary Cekura(https://www.cekura.ai)は、1年半にわたる経験を経て進化した音声・チャットエージェントシミュレーションプラットフォームを構築しています。チームは実際のユーザー会話をシミュレートし、プロンプトやLLMの挙動をストレステストし、リリース前に回帰を検出することができるため、AIエージェントの手作業によるQAが非現実的であるという課題に対処します。 **仕組み** - **合成ユーザー** がエージェントと対話します。 - **LLMベースのジャッジ** は単一ターンではなく、会話全体を評価します。 - プラットフォームを支える3つの有効化要素: 1. *シナリオ生成* + 実際の会話インポートにより、本番データからテストスイートをブートストラップし、進化させます。 2. **モックツールプラットフォーム** がツールのスキーマ・挙動・戻り値を定義し、リアルAPI呼び出しのフラクイル性を回避します。 3. *決定論的で構造化されたテストケース* は条件付きアクションツリーと明示的な条件、および任意の固定メッセージを使用して、確率的ノイズを除去します。 **ユニークバリュー** Cekuraは、Langfuse/LangSmith のターンごとのデバッグとは異なり、ライブエージェントトラフィックをフルセッションで監視します。個々のターンが正しく見えても全体の流れが壊れているケース(例:検証ステップのスキップや幻覚的回答)を捕捉できます。 **価格とコミュニティ** 有料プランは月額30ドルからで、7日間の無料トライアルが利用可能です。クレジットカードは不要です。Cekuraはハッカーニュースコミュニティに対話型エージェントのテスト実践や共通失敗モードを共有するよう奨励しています。 **デモ** YouTube でプロダクトデモ(https://www.youtube.com/watch?v=n8FFKv1-nMw)を視聴してください。結果は 8:40 にスキップできます。
本文
こんにちは、HNの皆さん。私たちはCekura(https://www.cekura.ai)のTarush、Sidhant、Shashijです。
ここ1年半にわたり音声エージェントのシミュレーションを実施しており、最近では同じインフラストラクチャをチャットにも拡張しました。Cekuraは以下のような用途で利用されています。
- 実際のユーザー会話をシミュレート
- プロンプトとLLMの挙動を負荷テスト
- 本番に入る前に回帰を検出
主要課題
AIエージェントを手作業でQAすることは不可能です。新しいプロンプトを投入したり、モデルを差し替えたり、ツールを追加した際に、ユーザーが想定される数千のやり取りの中でエージェントが正しく振舞うかどうかをどう確認するのでしょう?
ほとんどのチームは手動でスポットチェック(スケーラブルではない)、ユーザーからの苦情を待つ(遅すぎる)、あるいは脆弱なスクリプトテストに頼っています。
私たちの解決策:シミュレーション
合成ユーザーが実際のユーザーと同じようにエージェントと対話し、LLMベースのジャッジが応答が正しいかを評価します。単一ターンだけでなく、会話全体を通して検証します。
これを可能にする3つの重要要素
-
シナリオ生成 + 実際の会話インポート
- シナリオ生成エージェントが、エージェントの説明からテストスイートを自動構築します。
- 実際のユーザーはジェネレータが想定しないパスを発見するため、プロダクション会話も取り込み、自動でテストケースを抽出します。カバレッジはユーザーと共に進化します。
-
モックツールプラットフォーム
- エージェントはツールを呼び出しますが、実際のAPIに対してシミュレーションすると遅く不安定です。
- モックツールプラットフォームでツールスキーマ・振舞い・戻り値を定義し、プロダクション環境に触れずにツール選択と意思決定をテストできます。
-
決定的かつ構造化されたテストケース
- LLMは確率的です。CIで「ほぼ合格」するテストは意味がありません。
- フリーフォームプロンプトではなく、条件付きアクションツリーとして評価器を定義します。明示的な条件が特定の応答を引き起こし、ワード・フォー・ワードで正確さが必要な場合は固定メッセージをサポートします。合成ユーザーは実行ごとに同じ分岐ロジックと入力を持つため、失敗は真の回帰です。
ライブエージェント監視
LangfuseやLangSmithなどのトレースプラットフォームは個別のLLM呼び出しをデバッグするには優れていますが、会話型エージェントは「単一ターンではなく、ターン同士の関係」に失敗します。
例えば、名前・生年月日・電話番号を取得してから進む検証フロー。DOBを尋ねずに次へ進むと、個々のターンは問題なく見えますが、全体として評価すると失敗です。Cekuraはこの観点で設計されています。
トレースプラットフォームはターン単位で評価しますが、Cekuraは会話全体を評価します。銀行エージェントでユーザーがステップ1で検証に失敗しつつも、エージェントが幻覚化して進んだケースを想像してください。ターンベースの評価器はステップ3(住所確認)だけを見て緑とマークしますが、Cekuraのジャッジは全トランスクリプトを検証し、検証に失敗したためセッションを失敗としてフラグ付けします。
ぜひお試しください
- 7日間無料トライアル(クレジットカード不要): https://www.cekura.ai
- 月額30ドルからの有料プラン
製品デモもご用意しています。以下のリンクで実際に動作を確認できます:https://youtu.be/n8FFKv1-nMw
最初の1分はクイックオンボーディング、結果だけ見たい場合は8:40以降へジャンプしてください。
HNコミュニティではどんな方法で行動回帰テストを実施していますか?どの失敗モードが一番痛手でしたか?ぜひ以下で共有ください!