Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
Преобразование текста в речь в Discord: Пример использования TTS Discord Bot

Преобразование текста в речь в Discord: Пример использования TTS Discord Bot

В этом блоге мы обсудим наши выводы о том, как реальные пользователи Discord используют наши сервисы после анализа нескольких месяцев аутентичных данных преобразования текста в речь.

SeaVoice Discord

После запуска SeaVoice, одного из самых быстрых и точных ботов для преобразования текста в речь и речи в текст в Discord, мы хотели понять, как пользователи на самом деле взаимодействуют с сервисами. В этом блоге мы обсудим наши выводы после анализа нескольких месяцев реальных пользовательских данных преобразования текста в речь.

SeaVoice: Бот Discord для преобразования текста в речь и речи в текст

Discord, будучи платформой, используемой в основном для комбинации аудио- и текстового чата, является фантастической тестовой площадкой для сервисов голосового интеллекта и обработки естественного языка. Мы развернули бота SeaVoice, оснащенного командами преобразования текста в речь и речи в текст, в Discord в августе 2022 года. Чтобы узнать больше о том, как работает бот, или посмотреть короткое видео-демонстрацию, вы можете посетить Вики бота SeaVoice Discord. В ноябре того же года мы выпустили новую версию со значительными улучшениями бэкенда (как описано в нашем предыдущем блоге: Бот SeaVoice Discord: Улучшения бэкенда и стабильности), которые позволяют нам записывать анонимные данные о том, как пользователи взаимодействуют с ботом SeaVoice. В этом блоге мы рассмотрим данные пользователей за 1 месяц из команды преобразования текста в речь.

Использование SeaVoice TTS

Ежедневное использование преобразования текста в речь бота SeaVoice Discord за 7 недель.

Ежедневное использование преобразования текста в речь бота SeaVoice Discord за 7 недель.

На момент написания, бот SeaVoice был добавлен почти на 800 серверов! С тех пор как мы начали записывать данные об использовании в ноябре, мы обнаружили, что общее количество запросов в день может колебаться от 150 до более 1300 (в среднем около 560). Около 650 пользователей хотя бы один раз попробовали команду TTS. Однако большинство пользователей не продолжают использовать ее регулярно после первой попытки. Из этих 650 пользователей, которые попробовали команду TTS, около 200 использовали ее 20 или более раз, и только 100 использовали ее 50 или более раз. Тем не менее, те, кто действительно наслаждается и полагается на команду TTS, используют ее очень активно! Наши 5 лучших пользователей отправили более 1000 запросов каждый за последние два месяца, а лучший пользователь отправил почти 2500 запросов в одиночку!

Наблюдения

Почему люди используют преобразование текста в речь

Причины, по которым пользователи бота SeaVoice Discord используют преобразование текста в речь.

Причины, по которым пользователи бота SeaVoice Discord используют преобразование текста в речь.

Итак, наш первый вопрос после просмотра данных об использовании: почему частые пользователи вообще используют TTS? Мы просмотрели базу данных, чтобы найти некоторые объяснения. Ниже приведены реальные команды TTS от некоторых наших пользователей.

Почему ты не разговариваешь?

- к тому же я не могу говорить, потому что ем
- Я бы на самом деле поговорил, но сейчас я на работе.
- если я буду говорить, то разбужу свою семью
- извините, не буду много говорить. горло очень болит.
- я мог бы говорить, но моя мама здесь
- мне сегодня слишком лень говорить
- я не могу говорить, потому что я болен, но я все равно хотел зайти :)
- не полностью немой, просто требуется усилие, чтобы говорить. В некоторые дни много усилий
- извините, я отключил звук, моя бабушка разговаривает по телефону, и это громко
- Потому что мой микрофон был сломан

Найдя эти объяснения, мы можем суммировать их в несколько основных причин:

  • есть физический барьер (сломанный микрофон, трудности с речью, болезнь и т. д.),
  • они заняты чем-то другим (еда, работа и т. д.),
  • их окружение слишком шумное или им нужно быть тихими, или
  • потому что это удобно, и им нравится это использовать.

Но независимо от точной причины, по которой они используют сервис TTS, многие пользователи выразили восторг от того, что они смогли участвовать в голосовых каналах, когда в противном случае они не смогли бы. Мы считаем, что сервис TTS делает голосовые каналы Discord более доступными, и это основная причина, по которой наши постоянные пользователи продолжают использовать этот сервис.

Использование языка

Одна вещь, которая бросилась мне в глаза при просмотре разговоров, заключалась в том, что многие пользователи пытались использовать команду преобразования текста в речь с разными языками. В то время как некоторые пользователи просто хотели посмотреть, сработает ли это, или считали произношение забавным, другие, однако, продолжали использовать TTS на неанглийских языках в течение длительного времени!

Пользователь тестирует испанское произношение английской модели SeaVoice TTS.

Пользователь тестирует испанское произношение английской модели SeaVoice TTS.

Это особенно касалось испаноязычных пользователей, хотя (как отмечает пользователь выше) производительность TTS для испанского языка невысока, поскольку модель обучается только на английском языке. Я начал записывать каждый раз, когда встречал пользователя, пытающегося использовать команду TTS на языке, отличном от английского.

Количество попыток отправки неанглийских запросов в TTS.

Количество попыток отправки неанглийских запросов в TTS.

В таблице выше показано количество каждой найденной мной беседы, в которой был хотя бы один случай использования соответствующего языка в команде TTS. Очевидно, что испанский язык является наиболее распространенным, и в сочетании с тем фактом, что многие пользователи продолжали использовать функцию TTS на испанском языке, несмотря на плохую производительность, заставляет меня задуматься, нет ли уже жизнеспособной альтернативы для испанского TTS в Discord. В любом случае, люди пытаются использовать наш сервис TTS для других языков, поэтому мы можем отслеживать, какие языки пользуются наибольшим спросом, и использовать эти данные для информирования о нашем обучении новых моделей.

Комментарии о боте

Еще одной интересной темой, найденной в логах, были комментарии о самом боте. К счастью, мы увидели несколько очень положительных комментариев о боте и его производительности.

Пользователь комментирует, что бот заставляет его чувствовать себя более включенным.

Пользователь комментирует, что бот заставляет его чувствовать себя более включенным.

Самые трогательные комментарии были от тех, кто чувствовал себя исключенным из голосовых каналов, но теперь может участвовать благодаря дополнительной доступности, которую предоставляет бот.

Мы также нашли несколько конструктивных отзывов.

Пользователь комментирует, что скорость TTS является проблемой.

Пользователь комментирует, что скорость TTS является проблемой.

Один пользователь упомянул, что, поскольку пользователям сначала нужно ввести все предложение, а затем отправить его, TTS медленнее, чем обычная речь, поэтому иногда их произношение TTS произносится немного поздно в разговоре. Как упоминалось в предыдущем разделе, мы также видели запросы на дополнительную языковую поддержку, а также одного пользователя, который надеялся, что сможет переводить между языками с помощью бота. Отслеживание такого рода отзывов поможет нам планировать и улучшать функции в будущем.

Новизна

Просмотрев всю коллекцию команд TTS, я бы сказал, что около двух третей высказываний используются в общих разговорах с друзьями и другими людьми на сервере. Большинство людей играют в игры и просто общаются со своими друзьями, и эти пользователи, как правило, регулярно используют сервис TTS. С другой стороны, оставшаяся треть высказываний относится к категории «просто дурачиться». Когда вам дается полная власть заставить голос говорить все, что вы хотите, я считаю, что это человеческая природа — выбирать самую глупую или самую непристойную вещь, которую вы можете придумать, просто ради смеха. Я помню, как сидел в компьютерном классе начальной школы и часами развлекался с Microsoft Sam (очень высокотехнологичным по тем временам), проверяя, сможем ли мы заставить его говорить такие вещи, как «какашка» или «задница». Что ж, я полагаю, что такие дети, как я, выросли, приобрели более богатый словарный запас и в итоге нашли то же самое развлечение с нашим сервисом TTS в Discord.

Примеры странных запросов TTS, отправленных пользователями.

Примеры странных запросов TTS, отправленных пользователями.

Иногда пользователи просто пытаются сломать бота, вводя такие вещи, как: чрезмерно длинные строки, специальные символы, эмодзи, URL-адреса и т. д. Это классический пример того, как люди проверяют пределы программного обеспечения, и на самом деле это помогает нам убедиться, что наши сервисы надежны и могут обрабатывать любые входные данные, которые пользователи им предоставляют.

В других случаях пользователи находят развлечение, заставляя сервис TTS говорить самые непристойные и оскорбительные вещи, которые они могут придумать. В логах TTS, я думаю, я видел каждое ругательство, которое я знаю (и, возможно, некоторые, о которых я никогда раньше не слышал), расовые оскорбления и откровенный сексуальный контент.

Вопрос этики

К сожалению, существует множество способов, которыми приложение для преобразования текста в речь может быть использовано нежелательным образом: например, для пропаганды ненавистнических высказываний или кибербуллинга. Кроме того, хотя аудиоклипы синтезируются из модели, данные для обучения модели поступают от реального человека, и вывод из хорошей модели может звучать почти неотличимо от оригинала.

Таким образом, эти моменты, в сочетании с тем, как мы видели, как реальные пользователи используют (или злоупотребляют) нашим сервисом TTS, поднимают некоторые очень важные вопросы для Seasalt.ai как компании и для бота SeaVoice Discord:

  • Хотим ли мы как компания, чтобы наш продукт использовался потенциально оскорбительными или вредоносными способами?
  • Какие права имеют актеры озвучивания на то, как их голос используется в приложениях преобразования текста в речь?
  • Имеем ли мы право или обязанность цензурировать использование нашего сервиса?

На эти вопросы нельзя ответить, или даже полностью исследовать, в одной записи блога. Однако компания чувствует себя обязанной постоянно рассматривать эти вопросы по мере продвижения нашего проекта Discord и продолжения работы с нашими актерами озвучивания.

Благодарим вас за интерес к нашему боту Discord и проектам голосового интеллекта! Вы можете узнать больше о нашем продукте STT на нашей домашней странице преобразования речи в текст. Для индивидуальной демонстрации любого из наших продуктов голосового интеллекта заполните форму бронирования демонстрации.

Что касается Discord, вы можете узнать больше о нашем боте и добавить его на свой сервер из Вики бота SeaVoice Discord. Также не стесняйтесь присоединиться к нашему официальному серверу SeaVoice Discord.

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.