Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
Discordでの音声テキスト変換:STT Discordボットのケーススタディ

Discordでの音声テキスト変換:STT Discordボットのケーススタディ

このブログでは、数週間にわたる実際の音声テキスト変換データをレビューした後、実際のDiscordユーザーがSeaVoiceサービスをどのように利用しているかについての調査結果を議論します。

SeaVoice Discord

Discordで最速かつ最も正確なテキスト読み上げおよび音声テキスト変換ボットの1つであるSeaVoiceを立ち上げた後、ユーザーが実際にサービスとどのようにやり取りしているかを理解したいと考えました。このブログでは、数週間にわたる実際の音声テキスト変換ユーザーデータをレビューした後の調査結果を議論します。

SeaVoice:テキスト読み上げおよび音声テキスト変換Discordボット

Discordは、主に音声とテキストベースのチャットの組み合わせに使用されるプラットフォームであり、音声インテリジェンスと自然言語処理サービスにとって素晴らしいテストグラウンドです。私たちは、テキスト読み上げおよび音声テキスト変換コマンドを備えたSeaVoiceボットを2022年8月にDiscordに展開しました。ボットの動作方法の詳細、または短いビデオデモを見るには、SeaVoiceボットWikiをご覧ください。同年11月には、大幅なバックエンドの改善(ブログ投稿:SeaVoice Discordボット:バックエンドと安定性の改善で説明)を伴う新バージョンをリリースしました。これにより、ユーザーがSeaVoiceボットとどのようにやり取りしているかに関する匿名データを記録できます。前回のブログ(TTS Discordボットのケーススタディ)では、テキスト読み上げコマンドからの1か月分のユーザーデータを分析しました。今回は、約3週間分の音声テキスト変換ユーザーデータを見ていきます。

SeaVoice STTの使用状況

執筆時点では、SeaVoiceボットは900近くのサーバーに追加されています!約260のサーバー、合計600人以上の参加者が、少なくとも1回はSTTコマンドを試しています。過去3週間で、私たちは約1,800回のSTTセッションをホストし、合計で50万行以上の文字起こしを出力しました。

SeaVoice Discordボットの3週間における1日あたりの音声テキスト変換セッション数。

SeaVoice Discordボットの3週間における1日あたりの音声テキスト変換セッション数。

1日あたりのSTTセッションの総数を見ると、40から140以上に変動することがわかりました(平均約70)。また、生成している文字起こし行の総数も考慮できます。最も遅い日には1万行しか生成しませんが、忙しい日には4万行以上生成しました。これを視覚化すると、1月18日には102回のSTTセッションをホストし、合計で3万行弱の文字起こしを行いました。これは約40時間の録音時間に相当します。

また、ほとんどのセッションは短い会話に使用されますが(セッションあたり中央値57行)、非常に長いセッションが多数あり、平均をセッションあたり650行に引き上げています。私たちの最長セッションは3万行を超え、平均的な1日分以上でした!最後に、各セッションに何人のユーザーがいる傾向があるかを確認したところ、通常は各セッションに4〜5人のユーザーがいることがわかりました。ただし、一度、仮想セミナーでライブ文字起こしをサポートするためにボットを使用しましたが、そのセミナーには45人の参加者がいました!

SeaVoice Discordボットが3週間で1日あたりに文字起こしした行数。

SeaVoice Discordボットが3週間で1日あたりに文字起こしした行数。

ほとんどのサーバーはSTTセッションを数回しか使用していませんが、このサービスを広範囲に利用しているサーバーもかなりあります。12月下旬にSTTの使用状況データの記録を開始して以来、サーバーあたりの平均セッション総数は約7ですが、当社のNo.1サーバーは131セッションを記録しています。これは1日あたり平均6セッション以上です!同じサーバーはわずか3週間で15万行以上の音声を文字起こししています!おそらくそれ以上に印象的なのは、当社のNo.1ユーザーが同じサーバー出身で、自身の音声が6万行以上文字起こしされていることです!

観察

なぜ人々は音声テキスト変換を使用するのか

SeaVoice Discordボットのユーザーが、永続化された音声ファイルと文字起こしファイルについて興奮を表明しています。

SeaVoice Discordボットのユーザーが、永続化された音声ファイルと文字起こしファイルについて興奮を表明しています。

そこで、使用状況データを見た後の最初の質問は、**なぜ頻繁に利用するユーザーはそもそも音声テキスト変換を利用しているのか?**です。

私たちはデータベースを調べていくつかの説明を見つけました。しかし、TTSサービスとは対照的に、ユーザーがSTTサービスを利用している理由について具体的な説明を見つけるのはより困難でした。どうやら、人々はTTSを使用している理由をチャットの他の人に説明する必要性を感じているようですが、STTではそうではありません。それにもかかわらず、ユーザーがSTTサービスを利用することにした理由について洞察を与える興味深い文字起こしをいくつか見つけました。

ユーザーがSTTを利用する理由:

  • 「だから文字起こしが使われるんだ。見逃したことを見直せるからね。」
  • 「[ユーザー]は耳が不自由だから、文字起こししてくれるボットを使っている」
  • 「[ユーザー]は彼らとレイドをしていて、文字起こしにそれを使っているんだけど、[ユーザー]は、ああ、これって******* D and Dにも使えるじゃん、って言ってた」
  • 「後でこれらの文字起こしを読み返すのが待ちきれない […] あの録音を聞き直して、あの文字起こしをもう一度見たい」
  • 「ここで会議をすれば、会議の文字起こしをAIにフィードできる」
  • 「人との会議中に、実際に文字起こしを見るのは素晴らしい」
  • 「チャットにいない人やコミュニティにいるけどボイスチャットに参加していない人でも、見て読もうと決める」

一般的に、ほとんどのユーザーは、会話を追跡し、見逃した部分を埋めるのに役立つライブ文字起こしの利便性を享受しているようです。これは、聴覚障害のあるユーザーやオーディオ/接続に問題があるユーザーに特に当てはまります。一部のユーザーにとって最大の利点は、会話の永続的な音声とテキストの記録を保持することです。これは、ダンジョンズ&ドラゴンズのセッションログの維持や重要な会議の記録保持などのユースケースに特に適用できます。

多くのユーザーがSTTサービスを利用している理由を明示的に述べていなかったため、ボットを利用している間に彼らが何をしていたのかを把握することも有用だと考えました。ユーザーからの文字起こしをレビューすることで、彼らが文字起こし中にどのような活動をしていたのかについてヒントが得られました。

ユーザーがSTTを利用している間にしていること:

  • ただチャットしているだけ
    • ゲーム:
    • カジュアルゲーム
    • 高度なゲーム(例:MMO、大規模多人数オンライン、レイドのグループ調整)
  • ロールプレイングゲーム(ダンジョンズ&ドラゴンズ)
  • ストリーミング / コンテンツの録画
  • 学校 / 専門 / ボランティア活動の議論

文字起こしの大部分は「ただチャットしているだけ」と「カジュアルゲーム」のカテゴリに分類されます。上記で見たように、この場合、ほとんどのユーザーはDiscordの音声チャンネルのアクセシビリティを向上させるため、および/または会話で見逃した部分を埋めるためにライブ文字起こしを見る便利さを享受するためにボットを利用していると思います。一部のケース(MMOレイドで使用される場合など)では、ゲームの議論は非常に複雑で、ユーザーはリアルタイムで互いに連携しています。ライブ文字起こしは、ユーザーがプレイ中に文字起こしを参照できるため、チームの成功に非常に役立つ可能性があります。

MMOレイド中の複雑な議論の例。

MMOレイド中の複雑な議論の例。

また、多くのユーザーがボットを使用して、学校、専門、および/またはボランティアコミュニティの会議など、より真剣な会話を文字起こししているようです。私たちはまた、オンライン技術会議であるUnTechConを文字起こしするためにボットを使用しました。これらの場合、最終的な録音および文字起こしファイルは、会議後のレビューに非常に役立つ可能性があります。私が見つけた最後の興味深い例は、ユーザーが自分のストリーム用のコンテンツを録音していることでした。最終的な文字起こしにはタイムスタンプが付いているため、ユーザーは文字起こしファイルを録音されたオーディオまたはビデオコンテンツの字幕としてアップロードできる可能性があります。

SeaVoiceユーザーがDiscordの音声チャンネルをよりアクセスしやすくしてくれたことに感謝しています。

SeaVoiceユーザーがDiscordの音声チャンネルをよりアクセスしやすくしてくれたことに感謝しています。

しかし、STTサービスを利用する正確な理由が何であれ、多くのユーザーは、そうでなければ参加できなかったであろう音声チャンネルの会話に参加できたことに興奮を表明しました。私たちは、STTサービスがDiscordの音声チャンネルをよりアクセスしやすくすると信じており、それが私たちの常連ユーザーがサービスを利用し続ける主な理由です。

SeaVoice Discordボットに関するコメント

ログで見つかったもう1つの興味深いトピックは、ボット自体に関するコメントでした。幸いなことに、ボットとそのパフォーマンスについて非常に肯定的なコメントがいくつか見られました。

SeaVoiceユーザーが文字起こしの精度についてコメントしています。

SeaVoiceユーザーが文字起こしの精度についてコメントしています。

建設的なフィードバックもいくつか見つかりました。

SeaVoiceユーザーがイギリス英語のアクセントの改善を提案しています。

SeaVoiceユーザーがイギリス英語のアクセントの改善を提案しています。

ユーザーがSeaVoiceのアクセント付き英語でのパフォーマンスをSiriと比較しています。

ユーザーがSeaVoiceのアクセント付き英語でのパフォーマンスをSiriと比較しています。

建設的なコメントのほとんどは、ボットが非アメリカ英語のアクセントでうまく機能しないことに関するものでした。特にユーザーはイギリス英語とスコットランド英語のアクセントに言及しました。STTサービスの将来のために、さまざまな英語のアクセントに対する音声認識を改善するために多大な努力を払うことができます。もちろん、英語はユーザーが話す唯一の言語ではないため、ボットにさらに多くの言語サポートを追加することも計画しています。実際、現在、台湾華語のSTTおよびTTS統合を最終決定しており、まもなくボットの更新バージョンをリリースする予定です。

プライバシー、データ感度、および潜在的に不快なコンテンツ

AIの開発は倫理的ジレンマの奔流に囲まれています。私たちのモデルは、うまく機能するために大量の実際のユーザーデータを必要としますが、ユーザーのプライバシーを尊重しながら、そのデータを倫理的に収集するにはどうすればよいでしょうか? モデルは、提供されたデータに基づいてのみ学習するため、(潜在的に予期せぬ)バイアスを持っています。では、私たちのモデルがすべてのユーザーに等しくうまく機能するようにするにはどうすればよいでしょうか? さらに、私たちのモデルは社会的受容性の概念を持っておらず、一部のユーザーが不快に感じる結果を生み出す可能性があります。あるユーザーが雄弁に述べたように、「ボットがそれをやった場合、それは人種差別なのか、それが問題だ」

SeaVoiceユーザーが問題のある不正確な文字起こしを指摘しています。

SeaVoiceユーザーが問題のある不正確な文字起こしを指摘しています。

私がこれらの点を提起する理由は、ログにあるいくつかの懸念される文字起こしのためです。最初の問題は、ボットが時折不快なコンテンツを文字起こしすることです。上記の例では、ボットが誤って誰かのユーザー名を人種差別的な中傷として文字起こししました。明らかにこれはボット側のエラーであり、ユーザーにとって不快である可能性があり、調査する必要があります。しかし、これはさらに多くの疑問につながります。不快感と危害の境界線をどこに引くべきでしょうか?

SeaVoiceユーザーが、文字起こしから特定の単語を検閲しようとすることについてコメントしています。

SeaVoiceユーザーが、文字起こしから特定の単語を検閲しようとすることについてコメントしています。

さて、まず、その権限をユーザーに与えることにしました。次に開発する機能の1つは、TTSとSTTの構成可能な検閲です。これにより、サーバーは必要に応じて、罵倒語、性的コンテンツ、人種差別的な中傷などを検閲することができます。

SeaVoiceユーザーが、自分が話す内容が文字起こしに残ることを別の参加者に警告しています。

SeaVoiceユーザーが、自分が話す内容が文字起こしに残ることを別の参加者に警告しています。

興味深いことに、もう1つの関連する問題として、ユーザーが文字起こしに特定のものが表示されないように自己検閲していることがわかりました。これは驚くほど一般的で、ユーザーが言おうとしていることをボットに文字起こしさせたくないので、STTを停止して再開したケースを多く見ました。これは、たとえば、ボットに機密情報を文字起こしさせたくない場合など、ユーザー側にとって完全に有効な懸念です。

ボットをミュートしてSTTを一時停止する方法。

ボットをミュートしてSTTを一時停止する方法。

この場合、ユーザーエクスペリエンスを改善する方法があるかどうかはわかりませんが、ユーザーには、ボットへの音声送信を停止するために一時的にボットを「ミュート」できることをお勧めします。この場合、ボットは「ミュート解除」されるまで音声データを受信しないため、ユーザーは基本的に新しいセッションを停止して開始することなくSTTセッションを一時停止できます。

SeaVoiceユーザーが、別の参加者がボットに不快感を示していることについてコメントしています。

SeaVoiceユーザーが、別の参加者がボットに不快感を示していることについてコメントしています。

最後に、私たちが見た最後の問題は、一部のユーザーがボットの文字起こしに非常に不快感を覚えているため、ボットが存在する間は音声チャンネルで話すことを積極的に避けていることです。これは、Discordの音声チャンネルをすべての人にとってよりアクセスしやすくするという私たちの目標とは完全に逆です。ユーザーが私たちのプライバシーポリシーを受け入れ、データを責任を持って使用することを信頼してくれることを願っていますが、私たちはすべての人のプライバシーの権利を絶対に尊重します。そのため、次に実装する機能はSTTオプトアウト設定です。これにより、どのユーザーもSTTの録音と文字起こしから自分自身を除外でき、彼らの音声データはボットによっていかなる方法でもアクセスまたは収集されません。

これらの計画された機能により、音声チャンネルをすべての人にとってよりアクセスしやすくし続け、ユーザーが快適なレベルでSeaVoiceボットとやり取りできる能力を提供できることを願っています。今後も、SeaVoiceを可能な限り最高のものにするために、これらの困難な問題に積極的に取り組んでいきます!

Discordボットにご興味をお持ちいただきありがとうございます。そして、継続的なご支援をいただいているユーザーの皆様に感謝いたします!STT製品の詳細については、SeaVoice音声テキスト変換ホームページをご覧ください。当社の音声インテリジェンス製品のいずれかの1対1デモについては、デモ予約フォームにご記入ください。

まだSeaVoiceボットを試していない場合は、SeaVoice DiscordボットWikiからボットの詳細を確認し、サーバーに追加できます。また、お気軽に公式SeaVoice Discordサーバーにご参加ください。

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.