**プロジェクト概要**

私は、自動車整備工場向けに特化したAI受付システムを開発しました。このシステムは、顧客とのやり取り、予約のスケジューリング、および車両サービス状況のリアルタイム更新をすべて自然言語で行うことができます。

2026/03/23 19:32

**プロジェクト概要** 私は、自動車整備工場向けに特化したAI受付システムを開発しました。このシステムは、顧客とのやり取り、予約のスケジューリング、および車両サービス状況のリアルタイム更新をすべて自然言語で行うことができます。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


要約

Axleは、Daneの高級自動車整備工場向けに設計されたAI受付担当者であり、電話を受け付け、正確な価格情報とポリシー情報を提供し、回答できない場合にはコールバックを取得することで、失われた収益を排除します。システムはRetrieval‑Augmented Generation(RAG)に基づいており、21以上のスクレイプド文書(サービス、価格、処理時間、ポリシー等)のMongoDB Atlas知識ベースがVoyage AIでベクトル埋め込みされ、上位3件の意味的に関連する文書をクエリします。これらの抜粋はAnthropicのClaude Sonnet 4‑6に渡され、誤情報生成(hallucination)を禁止する厳格なシステムプロンプトで処理されます。

電話対応では、Vapiが着信番号を処理し、Deepgramが音声をテキストへ文字起こし、ElevenLabs(「Christopher」ボイス使用)がClaudeの応答を自然に聞こえる音声へ変換します。FastAPI Webhookは呼び出しデータをRAGパイプライン経由でルーティングし、Vapiへ再送信して再生させます。開発中にはNgrokトンネルがローカルサービスを公開HTTPS URLに公開します。

すべての通話ログとコールバックリクエスト(呼び出し者名・番号含む)はMongoDBコレクション(calls & callbacks)に保存され、Daneは通話量、よくある質問、および人間スタッフへのハンドオフを追跡できます。価格は自然な言い回しで発音されます(例:「四十五ドル」)。これはマークダウンや付随語句を排除するプロンプト書き換えにより実現します。

計画中のアップグレードには、予約用カレンダー統合、新しいコールバックへのSMS通知、コールバック管理ダッシュボード、運用環境でのセキュリティ強化、Railwayへのデプロイ、および顧客全体への本格展開が含まれます。

実際の知識ベースにLLMを基盤とし、出力を制御し、堅牢なフォールバックパス(呼び出し者情報の取得)を構築することで、Axleは収益捕捉を向上させ、自動車修理店向けに拡張可能な音声AIソリューションを提供します。

本文

兄のオーナーは高級メカニックショップを経営しており、毎月数千ドルを失っています。
なぜなら週に何百件もの電話に出られず、顧客が途中で切ってしまうからです。
彼は一日中車の下で作業しています;電話が鳴ると答えられないため、顧客はかけ直しを行い、他の人が仕事を引き受けてしまいます―時にはブレーキで450ドル、エンジン修理で2,000ドルもの差があります。

私は彼に Axle(車輪の軸のような響きを持つ)というAI受付係を作っています。
単なるチャットボットではなく、電話に出て回答し、正確な価格・営業時間・方針を把握し、分からない場合は折り返し連絡先を取得します。


1️⃣ 脳(RAG パイプライン)の構築

まず AI が正しく回答できるようにすることが重要です―誤った価格情報を飛ばさないために。

  • Dane のウェブサイトをスクレイピング → サービスページと料金をマークダウン化。
  • 21+の文書からなる構造化知識ベースを作成:サービス種別、価格、納期、営業時間、支払方法、キャンセルポリシー、保証、ローンカー、専門車種など。
  • 各文書を Voyage‑AI(voyage‑3‑large) で埋め込み、MongoDB Atlas に保存(1024 次元ベクトル)。
  • 埋め込みフィールドに Atlas Vector Search インデックスを作成。
  • 顧客が質問すると、そのクエリを埋め込み、ベクトルインデックスを検索し、上位3件の意味的に類似した文書を取得。
  • それらの文書を Anthropic Claude(claude‑sonnet‑4‑6) に渡し、厳格なシステムプロンプトで回答させます: 「知識ベースからのみ回答し、短く会話調に;分からない場合はその旨と折り返し連絡を申し出る」

結果:ターミナルに質問すると、根拠のある答えが得られます。

「オイル交換はいくらですか?」 → 「通常油なら45ドル、合成油なら75ドルです。オイルフィルター、フルード補充、タイヤ空気圧チェックを含みます。所要時間は約30分です。」


2️⃣ 実際の電話番号へ接続

音声プラットフォームとして Vapi を選択しました。

  • 通話、Speech‑to‑Text(Deepgram)、Text‑to‑Speech(ElevenLabs)とリアルタイム関数呼び出しを一括で処理します。

  • FastAPI の webhook サーバーを構築。Vapi は

    /webhook
    にクエリを送信し、サーバーは RAG パイプラインへ渡して Claude の返答を受け取り、TTS へ返す。

  • 開発時は Ngrok を使い、ローカルポート8000 → 公開 HTTPS URL を Vapi ダッシュボードに貼り付け。

  • Vapi アシスタントの設定:挨拶(「こんにちは、Dane’s Motorsport です。ご用件は?」)、ツール(

    answerQuestion
    saveCallback
    )を webhook URL にポイント。

  • Vapi は会話履歴全体を送信;RAG パイプラインは前回の発話をコンテキストとして受け取る。

  • すべての通話を MongoDB にログ:着信番号、クエリ、AI の回答、エスカレーションフラグ、タイムスタンプ。折り返し依頼は別に保存して Dane がフォローアップできるように。


3️⃣ 音声用チューニング

テキストと音声ではトーンや簡潔さが異なります。

  1. 適切な声を選ぶ – Vapi/ElevenLabs は多数の声を提供。約20種を試した結果、Christopher(落ち着き・自然でゆっくり)を採用。
  2. 音声向けシステムプロンプトを書き直す – 短い文、マークダウンやフラーは排除し、価格は「forty‑five dollars」など口語化。2〜4文でまとめる。目的は:ウェブページを読むチャットボットではなく、人間のように親切かつ知識豊富に聞こえること。
  3. エスカレーションフロー – 知識ベースにない質問の場合、AI は「分からない」と言い、名前と折り返し番号を尋ねて MongoDB に保存。Dane は失われたリードが無くなる。
  4. 統合テスト – RAG パイプライン・webhook ハンドラ・エンドツーエンドフローを網羅;不正なリクエスト、空の検索結果、欠損した折り返し番号などのケースもチェック。

📦 スタック

コンポーネント役割
Vapi(Deepgram & ElevenLabs)電話番号取得・Speech‑to‑Text・Text‑to‑Speech・ツール呼び出し
Ngrokローカル開発用トンネル
FastAPI + UvicornWebhook サーバー
MongoDB Atlas知識ベース保存、ベクトル検索、通話ログ、折り返しキュー
Voyage AI(voyage‑3‑large)テキスト埋め込み・意味検索
Anthropic Claude(claude‑sonnet‑4‑6)知識ベースに基づく応答生成
Python (pymongo, voyageai, anthropic, fastapi)コードの結合
Copilot CLI開発支援

🚀 今後やるべきこと

  • カレンダー連携 – 通話中に予約を取れるように。
  • SMS 通知 – 新しい折り返しがあれば即時通知。
  • ダッシュボード – すべての保留中折り返しを一元管理。
  • セキュリティ強化 – 本番環境向け堅牢化。
  • Railway デプロイ – 永続的な公開 URL を確保。
  • ハンドオーバー – Dane の実際の顧客に即稼働できる状態へ。

💡 まとめ

ビジネス固有の音声エージェントを作るなら、単純な LLM に頼らないこと。
真実の知識ベースで基盤を作り、回答は必ずそのベースに限定し、フォールバック(折り返し)フローを最初から設計するべきです。エスカレーションパスはオプションではなく、主要機能として組み込む必要があります。

(この記事は AI の支援で執筆されました。)

同じ日のほかのニュース

一覧に戻る →

2026/03/24 7:52

Windows 3.1 用 タイル背景 .bmp アーカイブ

## Japanese Translation: GitHubは、コード作成・ワークフロー自動化・セキュリティ・コミュニティ協働を向上させるAI搭載の開発者ツールとエンタープライズサービスの包括的なスイートを提供します。 - **AI コード生成**:Copilot、Spark、および Models は開発者がコードを自動で生成・改善するのに役立ちます。 - **開発者ワークフロー**:Actions、Codespaces、Issues、Plan、Code Review が、コーディングからデプロイまでの開発パイプライン全体を統括します。 - **セキュリティ**:GitHub Advanced Security は脆弱性を検出しシークレットを保護します;エンタープライズグレードのセキュリティは Copilot for Business にバンドルされています。 - **エンタープライズプラットフォーム**:AI 搭載の開発環境とプレミアムサポートにより、大規模チームがスケールで高度なツールを採用できるようになります。 - **ユースケースの幅広さ**:このスタックは、医療・金融・製造・政府などの業界で App Modernization、DevSecOps、および CI/CD をサポートします。 - **マーケットプレイスとコミュニティ**:Advanced Security のようなアドオンは Marketplace で入手可能です;Sponsors、Security Lab、Maintainer Community、Accelerator、Stars、Archive Program といったイニシアチブがオープンコラボレーションを促進します。 - **ドキュメントとサポート**:GitHub は包括的なドキュメント、ブログ、変更ログ、およびユーザー向け専用サポートチャネルを提供しています。 今後の展望として、GitHub は AI 統合を深化させ、エンタープライズ機能を拡充し、業界固有のサポートを拡大することを計画しており、デジタルトランスフォーメーションの加速、コード品質基準の向上、および組織全体でのセキュリティ強化に寄与すると期待されています。

2026/03/24 3:40

既存の研究アイデアに対する自己主導型調査

## Japanese Translation: 研究は、検索空間とサンドボックス制約が厳密に定義された場合、LLM駆動エージェントが機械学習トレーニングパイプラインを自律的に改善できることを示しています。エージェントは制限付きループで動作します:仮説 → `train.py`/`program.md` を編集(メモリ用にスクラッチパッド使用)→ トレーニング(RTX 4090 で約800ステップ ≈ 3 分)→ 平均順位を評価し、コミットまたはロールバック。各実行はノイズ過剰適合を防ぐために約5 分の壁時計時間で制限されます。 トレーニングは医療用X線データセットから始まり、その後 Ukiyo‑eVG(≈11 K 日本の木版画)へ切り替えました。フレーズ注釈はガウスヒートマップに変換され、追加の「視線」入力として使用されました。CLIPバックボーンは ViT‑Small (22 M) + DistilBERT (66 M) + HeatmapProcessor (~90 M パラメータ) で構成され、ホールドアウト1 Kテストセットで評価しました(ベースライン平均順位 344.68、R@1 img→txt 17.2%、txt→img 16.5%)。 1日間にわたりエージェントは42実験を実行し、そのうち13がコミットされ29がロールバックされました。平均順位は344.68から157.43へ(54 %減少)しました。主な向上は温度制限修正(-113点)と Optuna++ ハイパーパラメータ調整(-30点)によるもので、他のアーキテクチャ変更はほぼ影響がありませんでした。フェーズ 4/5では成功率が低下し、多くの「スパゲッティ」仮説が失敗しました;サンドボックス違反は、エージェントが未承認の bash 呼び出しを試みたりループを早期に停止した際に発生しました。 実験は、LLM エージェントが明確に定義された検索空間内で機械学習研究を自律的に推進できることを示していますが、予期せぬ(「未知の未知」)挙動には苦戦し、厳格なサンドボックス化が必要です。将来の作業では計画段階やサブエージェントを導入して、1実験あたりの単一変更制限を克服し、ハイパーパラメータのより深い探索と成功率の向上を可能にすることが考えられます。

2026/03/22 0:07

**朱祁:磁器修復の技術**

## Japanese Translation: **概要:** ジュチ(锔瓷)は、宋代(960‑1279)に遡る中国の破損した磁器を修復する工芸です。13世紀の絵画に作業員が壊れた陶器を修理している様子が描かれており、ユネスコはジュチを無形文化遺産として認定しています。この技術では、職人が**脆弱な磁器に穴を開け、慎重に手作業で製造した金属のスタープレート(銅、鉄、または貴金属)を挿入し、裂け目を覆いながら物体の機能と美的整合性を保ちます**。ジュチは「不完全さの美」を称える哲学を具現化しており、日本の金継ぎ(壊れた陶器を漆で修復し、金箔で縫い合わせる)と類似しています。両方の伝統において、裂け目は再生されたアイデンティティへ変容し、人生に伴う傷や回復力を象徴します

**プロジェクト概要** 私は、自動車整備工場向けに特化したAI受付システムを開発しました。このシステムは、顧客とのやり取り、予約のスケジューリング、および車両サービス状況のリアルタイム更新をすべて自然言語で行うことができます。 | そっか~ニュース