Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
Discordでのテキスト読み上げ:TTS Discord Botの事例研究

Discordでのテキスト読み上げ:TTS Discord Botの事例研究

このブログでは、数ヶ月間の実際のテキスト読み上げデータをレビューした後、実際のDiscordユーザーが当社のサービスをどのように利用しているかについての調査結果を議論します。

SeaVoice Discord

Discordで最速かつ最も正確なテキスト読み上げおよび音声認識ボットの1つであるSeaVoiceをリリースした後、ユーザーが実際にサービスとどのようにやり取りしているかを理解したいと考えました。このブログでは、数ヶ月間の実際のテキスト読み上げユーザーデータをレビューした後の調査結果を議論します。

SeaVoice:テキスト読み上げ&音声認識Discord Bot

Discordは、主に音声とテキストベースのチャットを組み合わせたプラットフォームであり、音声インテリジェンスと自然言語処理サービスの素晴らしいテストグラウンドです。 私たちは2022年8月に、テキスト読み上げと音声認識コマンドを備えたSeaVoice BotをDiscordに展開しました。 ボットの仕組みについて詳しく知りたい場合、または短いビデオデモを見たい場合は、SeaVoice Discord Bot Wikiをご覧ください。 同年11月には、大幅なバックエンド改善(以前のブログ投稿:SeaVoice Discord Bot:バックエンドと安定性の改善で説明)を施した新バージョンをリリースしました。これにより、ユーザーがSeaVoiceボットとどのようにやり取りしているかに関する匿名データを記録できるようになりました。 このブログでは、テキスト読み上げコマンドからの1ヶ月間のユーザーデータを見ていきます。

SeaVoice TTSの使用状況

SeaVoice Discord Botの7週間の日次テキスト読み上げ使用状況。

SeaVoice Discord Botの7週間の日次テキスト読み上げ使用状況。

執筆時点では、SeaVoice Botはすでに約800のサーバーに追加されています! 11月に使用状況データの記録を開始して以来、1日の総リクエスト数は150から1,300以上に変動する可能性があることがわかりました(平均約560)。 約650人のユーザーが少なくとも一度はTTSコマンドを試しました。 しかし、ほとんどのユーザーは試した後も定期的に使用し続けていません。 TTSコマンドを試した650人のユーザーのうち、約200人が20回以上使用し、50回以上使用したのはわずか100人でした。 とはいえ、TTSコマンドを楽しみ、それに依存しているユーザーは、それを広範囲に利用しています! 当社のトップ5ユーザーは、過去2ヶ月間でそれぞれ1,000件以上のリクエストを送信しており、トップユーザーは単独で約2,500件のリクエストを送信しています!

観察

なぜ人々はテキスト読み上げを使用するのか

SeaVoice Discord Botユーザーがテキスト読み上げを利用する理由。

SeaVoice Discord Botユーザーがテキスト読み上げを利用する理由。

使用状況データを見た後の最初の質問は、**なぜ頻繁に利用するユーザーはそもそもTTSを利用しているのか?**ということです。 いくつかの説明を見つけるためにデータベースを調べました。 以下は、一部のユーザーからの実際のTTSコマンドです。

なぜ話さないの?

- あと、食べてるから話せない
- 本当は話したいんだけど、今仕事中なんだ。
- 話すと家族を起こしてしまう
- ごめん、あまり話さない。喉がすごく痛いんだ。
- 話せるんだけど、お母さんがいるから
- 今日は話すのが面倒くさい
- 病気だから話せないけど、とにかく参加したかったんだ :)
- 完全にミュートではないけど、話すのに努力が必要なんだ。日によってはすごく努力が必要
- ごめん、ミュートにしてる。おばあちゃんが電話で話しててうるさいんだ
- マイクが壊れてたから

これらの説明を見つけた後、いくつかの主な理由にまとめることができます。

  • 物理的な障壁がある(マイクの故障、話すのが難しい、病気など)、
  • 他のことで忙しい(食事中、仕事中など)、
  • 周囲がうるさすぎる、または静かにする必要がある、または
  • 便利で使うのが好きだから。

しかし、TTSサービスを利用する正確な理由に関わらず、多くのユーザーは、そうでなければ参加できなかったであろうボイスチャンネルの会話に参加できたことに興奮を表明しました。 私たちは、TTSサービスがDiscordのボイスチャンネルをよりアクセスしやすくすると信じており、それが私たちの常連ユーザーがこのサービスを利用し続ける主な理由です。

言語の使用

会話をレビューしているときに気づいたことの1つは、多くのユーザーが異なる言語でテキスト読み上げコマンドを使用しようとしたことです。 一部のユーザーはそれが機能するかどうかを確認したかっただけか、発音が面白いと思っただけでしたが、他のユーザーは、英語以外の言語でTTSを長期間使用し続けました!

ユーザーが英語のSeaVoice TTSモデルのスペイン語の発音をテストしています。

ユーザーが英語のSeaVoice TTSモデルのスペイン語の発音をテストしています。

これは特にスペイン語話者の場合で、(上記のユーザーが指摘しているように)モデルが英語のみでトレーニングされているため、スペイン語のTTSのパフォーマンスは良くありません。 私は、英語以外の言語でTTSコマンドを使用しようとしているユーザーに遭遇するたびにメモを取り始めました。

TTSに非英語のリクエストを送信する試行回数。

TTSに非英語のリクエストを送信する試行回数。

上記の表は、TTSコマンドで対応する言語を使用している人が少なくとも1人いたすべての会話の数を表しています。 明らかに、スペイン語が圧倒的に最も一般的であり、多くのユーザーがパフォーマンスが悪いにもかかわらずスペイン語でTTS機能を使用し続けたという事実と相まって、Discordにスペイン語TTSの実行可能な代替手段がまだ存在しないのかどうか疑問に思います。 いずれにせよ、人々は他の言語で私たちのTTSサービスを使用しようとしているので、どの言語の需要が最も高いかを追跡し、このデータを使用して新しいモデルのトレーニングに役立てることができます。

ボットに関するコメント

ログで見つかったもう1つの興味深いトピックは、ボット自体に関するコメントでした。 ありがたいことに、ボットとそのパフォーマンスについて非常に肯定的なコメントがいくつか見られました。

ユーザーは、ボットが彼らをより包括的に感じさせるとコメントしています。

ユーザーは、ボットが彼らをより包括的に感じさせるとコメントしています。

最も感動的なコメントは、ボイスチャンネルから疎外されていると感じていた人々からのものでしたが、ボットが提供するアクセシビリティの追加のおかげで、今では参加できるようになりました。

建設的なフィードバックもいくつか見つかりました。

ユーザーは、TTSの速度が問題であるとコメントしています。

ユーザーは、TTSの速度が問題であるとコメントしています。

あるユーザーは、ユーザーがまず文全体を入力してから送信する必要があるため、TTSは通常の会話よりも遅く、そのためTTSの発言が会話で少し遅れて発言されることがあると述べました。 前のセクションで述べたように、追加の言語サポートの要求や、ボットを使用して言語間で翻訳できることを望むユーザーもいました。 このようなフィードバックに注意を払うことで、今後の機能の計画と改善に役立ちます。

新規性

TTSコマンドの全コレクションをざっと見たところ、発話の約3分の2は、サーバーの友人や他の人々との一般的な会話で使用されていると言えるでしょう。 ほとんどの人はゲームをしたり、友達とチャットしたりしており、これらのユーザーはTTSサービスを定期的に使用する傾向があります。 一方、残りの3分の1の発話は、「ただふざけている」というカテゴリに分類されます。 あなたが望むことを声に言わせる完全な権限を与えられたとき、笑いのために考えられる最も愚かでわいせつなことを選ぶのは人間の本性だと私は信じています。 私は小学校のコンピューター室に座って、Microsoft Sam(当時は非常にハイテクでした)に何時間も楽しませてもらい、「うんち」や「お尻」のようなことを言わせることができるかどうか試していたのを覚えています。 まあ、私のような子供たちは成長し、より豊かな語彙を身につけ、最終的にDiscordのTTSサービスで同じエンターテイメントを見つけたのだと思います。

ユーザーが送信した奇妙なTTSリクエストの例。

ユーザーが送信した奇妙なTTSリクエストの例。

時々、ユーザーは過度に長い文字列、特殊文字、絵文字、URLなどを入力してボットを壊そうとします。 これは、人々がソフトウェアの限界をテストする典型的な例であり、実際に私たちのサービスが堅牢であり、ユーザーが入力するあらゆるものを処理できることを確認するのに役立ちます。

また、ユーザーはTTSサービスに、彼らが思いつく最もわいせつで不快なことを言わせることで娯楽を見つけます。 TTSのログでは、私が知っているすべての罵り言葉(そしておそらく聞いたことのないものもいくつか)、人種差別的な中傷、露骨な性的内容を見たと思います。

倫理の問題

残念ながら、テキスト読み上げアプリケーションは、ヘイトスピーチやサイバーいじめを助長するなど、不快な方法で使用される可能性があります。 さらに、オーディオクリップはモデルから合成されますが、モデルをトレーニングするためのデータは実在の人物から取得され、優れたモデルからの出力はオリジナルとほとんど区別できないほどです。

したがって、これらの点と、実際のユーザーが当社のTTSサービスをどのように使用(または悪用)しているかを見たことは、企業としてのSeasalt.aiとSeaVoice Discord Botにとって非常に重要な問題を提起します。

  • 企業として、私たちは製品が潜在的に不快または有害な方法で使用されることを望んでいますか?
  • 声優は、テキスト読み上げアプリケーションで自分の声がどのように利用されるかについて、どのような権利を持っていますか?
  • 私たちは、サービスの利用方法を検閲する権利または責任を持っていますか?

これらの質問は、単一のブログ投稿で回答したり、完全に探求したりすることはできません。 しかし、当社はDiscordプロジェクトを進め、声優との協力を続ける中で、これらの問題を継続的に検討する義務があると感じています。

当社のDiscord Botおよび音声インテリジェンスプロジェクトにご興味をお持ちいただきありがとうございます!当社のSTT製品の詳細については、音声認識ホームページをご覧ください。当社の音声インテリジェンス製品のいずれかの1対1デモについては、デモ予約フォームにご記入ください。

Discord側では、SeaVoice Discord Bot Wikiから当社のボットについて詳しく知り、サーバーに追加できます。また、公式SeaVoice Discordサーバーへの参加もお気軽にご検討ください。

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.