これは、中小企業向けの顧客コミュニケーション戦略を探求する5つの記事シリーズで、応答サービスに焦点を当てています。
-
中小企業が応答サービスを必要とする理由:応答サービスの重要性と利点を発見してください。
-
アウトソーシング vs. 社内ライブ受付:ライブ受付とは何ですか?アウトソーシングすべきか、社内で雇用すべきか?
-
自動電話応答システム(インタラクティブ音声応答IVR vs. 音声AIエージェント):自動応答サービスとは何ですか?インタラクティブ音声応答または音声AIエージェントを使用すべきですか?
-
決定:私の小規模企業はライブ受付または自動応答サービスを使用すべきですか?:当社のシリーズから応答サービスについてすべて学びました。今こそ、あなたのビジネスに最適なサービスの種類を決定する時です。
-
(この記事)OpenAI vs. 人間 vs. 音声AI:コスト比較:最新の音声AI技術に切り替えるべきか疑問に思っていますか?実際のコストを見てみましょう。
TLDR:
- OpenAIも人間も高価になる可能性があります:
- OpenAIのRealtime APIは、音声エージェント(AI)体験を約1分あたり1ドルで実現できます。
- オンデマンドの仮想受付(人間)も約1分あたり1ドルで価格設定されています。
- しかし、注意点のあるバランスの取れた選択肢もあります:
- 長期的に雇用された場合、英語が堪能な人間エージェントは1時間あたり5ドル(1分あたり0.08ドル)と低くなる可能性があります。
- スタートアップが提供する音声AIエージェントは、1時間あたり7.2ドル(1分あたり0.12ドル)と低くなる可能性があります。
この記事の音声版を聴きたい場合は、こちらがビデオです:
ChatGPT-4oのリアルタイムAPIの実際のコスト
OpenAIは、2024年10月1日にChatGPT-4o用のリアルタイムAPIをリリースしました。これは、最初のオムニチャネル大規模言語モデルであるGPT-4oのリリースから5か月後のことです。そのパフォーマンスは驚くべきものです。Chatgpt-4o-realtimeは人間のように聞こえ、人間のように応答し、ノイズや中断に対して堅牢です。
しかし、Chatgpt-4o-realtimeは手頃な価格ですか?
一見すると、OpenAIのリアルタイムAPIは、GPT-4o-miniのテキストよりも約30倍高価に見えます(5ドル対0.15ドル / 1M入力トークン)。

chatgpt-4o-realtimeの2024年10月の価格

chatgpt-4o-miniの2024年10月の価格
OpenAIは、音声入力に1分あたり約0.06ドル、音声出力に1分あたり0.24ドルかかると主張しています。これらを合計すると、1分あたり0.30ドルを超えることはないはずですよね?
私たちは4o-realtime APIの実際のテストを実施し、1分あたり約1ドルかかることがわかりました。

ChatGPT-4oリアルタイムAPIの1回のテストのコストのスクリーンショット
chatgpt-4o-realtime APIとの5分間の音声会話を行い、5.38ドルかかりました。5分間の音声会話には約142秒の文字起こしされた音声(音声入力と考えてください)が含まれており、残りはほとんど音声出力です。
私たちが行った別のテストでは、10分間の簡単な会話に約10ドルかかりました。
うわー、それは高いですね。実際、Seasalt.ai独自の音声エージェントよりも約10倍高価です。
一部の開発者がAPIをテストしているだけで、実際に何かをする音声AIエージェントをトレーニングするために意味のある努力をしようとしている場合、1日で簡単に数百ドルを費やすことができます!
ChatGPT-4oのリアルタイムAPI vs. 人間エージェント – どちらがより手頃ですか?
したがって、ChatGPT-4oのリアルタイムAPIを使用して音声AIエージェントを構築した場合、1分あたり約1ドル、つまり1時間あたり60ドルかかります。
人間エージェントの費用はいくらですか?
フロントデスクの受付係など、社内で雇用する場合、最低賃金(連邦政府の7.25ドルからカリフォルニアの16ドル)から、おそらく1時間あたり20ドルから30ドルの間になる可能性があります。
外部の代理店を利用する場合、価格は異なる場合があります。一部は200分で月額349ドルから始まり、セットアップ料金が追加されます。Seasalt.aiはこれに関して詳細な調査を書いています:ライブ受付の費用:社内 vs. アウトソーシング。

Seasalt.aiによるライブ受付ベンダー概要
ChatGPT-4oのリアルタイムAPI vs. その他の音声AIエージェント – 違いは何ですか?
ChatGPT-4oのリアルタイムAPIは、音声AI技術における重要な進歩を表しており、他の音声AIエージェントと比較していくつかの重要な違いを提供します:
- 応答性:平均応答時間2〜3秒で、ほぼリアルタイムのインタラクションを提供します
- 堅牢性:APIは会話中の割り込みとリダイレクトを可能にし、より自然な対話フローを可能にします
- エンドツーエンド:APIは、音声からテキスト(Azure、Deepgramなど)やテキストから音声(Azure、Eleven labs)など、異なるコンポーネントを結合する必要がありません。
しかし、ここでの注意点はコストです。ChatGPT-4oのリアルタイムAPIは1分あたり約1ドルかかりますが、他の音声AIエージェントは1分あたり0.12ドルと低くなる可能性があります。

Seasalt.aiによる音声AIエージェント製品比較
価格に10倍の差がありますが、パフォーマンスに10倍の差はありますか?それは顧客が判断することです。
評決
事業主には、基本的に4つの選択肢があります:
- 社内人間エージェント
- 別の会社にアウトソーシングする(国内または海外)
- 手頃な価格の音声AIエージェントを使用する
- 最も高度/高価なOpenAIリアルタイムAPIで構築する
以下に、さまざまなオプションの長所と短所をまとめました:
- OpenAIリアルタイムAPIは最速で最も自然な体験を提供しますが、技術的な専門知識が必要で高価です。
- オンショアオンデマンド人間エージェントは、完璧な英語での基本的なタスクに適していますが、統合が限られています。
- オフショア長期人間エージェントは最も手頃ですが、インフラストラクチャの問題と高い離職率のため信頼性が低い場合があります。
- 統合音声AIエージェントは、コスト、機能、使いやすさのバランスを提供しますが、応答性がわずかに低く、統合に癖がある場合があります。

電話応答サービスのさまざまなオプション:人間 vs. OpenAI vs. 音声AIスタートアップ
音声認識と自然言語処理の分野の専門家として、私の意見は次のとおりです:
- 市場の統合音声AIエージェントを使用してください。たとえば、私がSeaChatで誇りを持って構築したものなどです。これらは成熟しており、手頃な価格です。
- OpenAIリアルタイムAPIには、モルモットがテストするためにさらに1年を与えてください。うまくいけば、価格がより手頃な1時間あたり10ドルに下がり、そのとき本当に素晴らしいものになるでしょう。人間エージェントに注意してください!
もっと詳しく知る
手頃な価格で顧客サービス向けのAI音声技術を最初に探求したい場合は、SeaChatにアクセスするか、デモを予約できます。
このシリーズについて
これは、中小企業向けの顧客コミュニケーション戦略を探求する5つの記事シリーズで、応答サービスに焦点を当てています。
-
中小企業が応答サービスを必要とする理由:応答サービスの重要性と利点を発見してください。
-
アウトソーシング vs. 社内ライブ受付:ライブ受付とは何ですか?アウトソーシングすべきか、社内で雇用すべきか?
-
自動電話応答システム(インタラクティブ音声応答IVR vs. 音声AIエージェント):自動応答サービスとは何ですか?ロボットIVRまたは音声AIエージェントを使用すべきですか?
-
決定:私の小規模企業はライブ受付または自動応答サービスを使用すべきですか?:当社のシリーズから応答サービスについてすべて学びました。今こそ、あなたのビジネスに最適なサービスの種類を決定する時です。
-
(この記事)OpenAI vs. 人間 vs. 音声AI:コスト比較:OpenAIの最新の音声AI技術は優れた音声AIエージェントです。実際のコストはいくらですか?