Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
Речь в текст в Discord: тематическое исследование бота Discord STT

Речь в текст в Discord: тематическое исследование бота Discord STT

В этом блоге мы обсудим наши выводы о том, как реальные пользователи Discord используют сервисы SeaVoice после анализа нескольких недель аутентичных данных преобразования речи в текст.

SeaVoice Discord

После запуска SeaVoice, одного из самых быстрых и точных ботов для преобразования текста в речь и речи в текст в Discord, мы хотели понять, как пользователи на самом деле взаимодействуют с сервисами. В этом блоге мы обсудим наши выводы после анализа нескольких недель реальных пользовательских данных преобразования речи в текст.

SeaVoice: Бот Discord для преобразования текста в речь и речи в текст

Discord, будучи платформой, используемой в основном для комбинации аудио- и текстового чата, является фантастической тестовой площадкой для служб голосового интеллекта и обработки естественного языка. Мы развернули бота SeaVoice, оснащенного командами преобразования текста в речь и речи в текст, в Discord в августе 2022 года. Чтобы узнать больше о том, как работает бот, или посмотреть короткое видео-демонстрацию, вы можете посетить вики SeaVoice Bot. В ноябре того же года мы выпустили новую версию со значительными улучшениями бэкенда (как описано в нашем блоге: Бот Discord SeaVoice: улучшения бэкенда и стабильности), которые позволяют нам записывать анонимные данные о том, как пользователи взаимодействуют с ботом SeaVoice. В нашем последнем блоге (Тематическое исследование бота Discord TTS) мы проанализировали данные пользователя за 1 месяц из команды преобразования текста в речь. В качестве продолжения, в этом посте мы рассмотрим данные пользователя преобразования речи в текст за примерно 3 недели.

Использование SeaVoice STT

На момент написания статьи бот SeaVoice был добавлен почти на 900 серверов! Около 260 серверов, насчитывающих в общей сложности более 600 участников, фактически попробовали команду STT хотя бы один раз. За последние 3 недели мы провели почти 1800 сеансов STT и вывели в общей сложности более полумиллиона строк транскрипции.

Ежедневные сеансы преобразования речи в текст бота Discord SeaVoice за 3 недели.

Ежедневные сеансы преобразования речи в текст бота Discord SeaVoice за 3 недели.

Если мы посмотрим на общее количество сеансов STT в день, мы обнаружили, что оно может колебаться от 40 до более 140 (в среднем около 70). Мы также можем рассмотреть общее количество строк транскрипции, которые мы производим. В самый медленный день мы производим всего 10 тысяч строк, однако в загруженный день мы произвели более 40 тысяч строк. Чтобы представить это в перспективе, 18 января мы провели 102 сеанса STT с общим количеством чуть менее 30 тысяч строк транскрипции; это составило почти 40 часов записи.

Мы также обнаружили, что хотя большинство сеансов используются для более коротких разговоров (медиана 57 строк на сеанс), существует значительное количество очень длинных сеансов, которые поднимают среднее значение до 650 строк на сеанс. Наш самый длинный сеанс составил более 30 тысяч строк, что больше, чем средний дневной объем! Наконец, мы также посмотрели, сколько пользователей обычно находится в каждом сеансе, и обнаружили, что обычно в каждом сеансе от 4 до 5 пользователей - однако однажды мы использовали бота для поддержки живой транскрипции на виртуальном семинаре, в котором участвовало 45 человек!

Строки, транскрибированные ботом Discord SeaVoice в день за 3 недели.

Строки, транскрибированные ботом Discord SeaVoice в день за 3 недели.

Хотя большинство серверов использовали сеанс STT не более нескольких раз, есть довольно много тех, кто активно использует эту услугу. С тех пор как мы начали записывать данные об использовании STT в конце декабря, среднее общее количество сеансов на сервер составляет около 7; однако наш сервер №1 зарегистрировал 131 сеанс - это в среднем более 6 сеансов в день! Тот же сервер транскрибировал более 150 тысяч строк речи всего за 3 недели! Возможно, еще более впечатляющим является то, что наш пользователь №1 с того же сервера и его собственная речь была транскрибирована более чем на 60 тысяч строк!

Наблюдения

Почему люди используют преобразование речи в текст

Пользователь бота Discord SeaVoice выражает восторг по поводу сохраненных аудио- и транскрипционных файлов.

Пользователь бота Discord SeaVoice выражает восторг по поводу сохраненных аудио- и транскрипционных файлов.

Итак, наш первый вопрос после просмотра данных об использовании: почему частые пользователи вообще используют преобразование речи в текст?

Мы просмотрели базу данных, чтобы найти некоторые объяснения. Однако оказалось, что найти конкретные объяснения того, почему пользователи использовали службу STT, в отличие от службы TTS, сложнее. По-видимому, люди чувствуют необходимость объяснять другим в чате, почему они используют TTS, но меньше в случае с STT. Тем не менее, я нашел несколько интересных транскрипций, которые дали некоторое представление о том, почему пользователи решают использовать службу STT.

Почему пользователи используют STT:

  • «Вот почему используется транскрипция, потому что я могу просматривать то, что я пропустил».
  • «[пользователь] плохо слышит, поэтому он получает бота, который это транскрибирует»
  • «[пользователь] рейдит с ними, и они используют это для транскрипции вещей, но потом [пользователь] сказал: о, мы можем использовать это и для ******* D и D»
  • «Не могу дождаться, чтобы вернуться и прочитать некоторые из этих транскрипций позже […] Я хочу снова послушать эту запись и посмотреть эту транскрипцию»
  • «Если у нас здесь будут встречи, то мы сможем передать транскрипцию встречи в ИИ»
  • «Во время встречи с людьми, это здорово, чтобы фактически увидеть транскрипцию»
  • «[люди], которые не в чате или люди, которые в сообществе, но не являются частью голосового чата, но они решают посмотреть и прочитать»

Таким образом, в целом, похоже, что большинство пользователей наслаждаются удобством наличия живой транскрипции, которая может помочь им отслеживать разговор и заполнять любые пробелы, которые они пропустили. Это особенно актуально для пользователей с нарушениями слуха или проблемами с аудио/подключением. Для некоторых пользователей самым большим преимуществом является сохранение постоянной аудио- и текстовой записи их разговора; это может быть особенно применимо для таких случаев использования, как ведение журнала сеансов Dungeons & Dragons или ведение записей важных встреч.

Поскольку многие пользователи не объясняли явно, почему они использовали службу STT, также казалось полезным понять, что они делали, используя бота. Просмотр транскрипций от пользователей дал мне подсказки о том, какие действия они выполняли во время транскрибирования:

Что пользователи делают, используя STT:

  • Просто общаются
    • Игры:
    • Казуальные игры
    • Продвинутые игры (например, координация групповых MMO, Massive Multiplayer Online, рейды)
  • Ролевые игры (Dungeons & Dragons)
  • Стриминг / запись контента
  • Обсуждение школьной / профессиональной / волонтерской работы

Подавляющее большинство транскрипций попадает в категории «просто общение» и «казуальные игры». Как мы видели выше, я думаю, что большинство пользователей в этом случае используют бота для улучшения доступности голосового канала Discord и/или наслаждаются удобством просмотра живой транскрипции, чтобы заполнить любые пробелы, которые они пропустили в разговоре. В некоторых случаях (например, при использовании для рейдов MMO) игровые обсуждения очень сложны, и пользователи координируют свои действия в реальном времени; живые транскрипции могут оказаться чрезвычайно полезными для успеха команды, поскольку пользователи могут ссылаться на транскрипции во время игры.

Пример сложной дискуссии во время рейда MMO.

Пример сложной дискуссии во время рейда MMO.

Также кажется, что многие пользователи используют бота для транскрибирования более серьезных разговоров, таких как школьные, профессиональные и/или общественные собрания волонтеров. Мы также использовали нашего бота для транскрибирования онлайн-технологической конференции UnTechCon. В этих случаях окончательные файлы записи и транскрипции могут оказаться очень полезными для пользователей для просмотра после встречи. Последний интересный пример, который я нашел, был пользователь, записывающий контент для своего стрима. Поскольку окончательная транскрипция поставляется с временными метками, пользователи потенциально могут загрузить файл транскрипции в качестве субтитров для своего записанного аудио- или видеоконтента.

Пользователь SeaVoice выражает благодарность за то, что голосовые каналы Discord стали более доступными.

Пользователь SeaVoice выражает благодарность за то, что голосовые каналы Discord стали более доступными.

Но независимо от точной причины, по которой они используют службу STT, многие пользователи выразили восторг от того, что они смогли участвовать в разговорах голосового канала, хотя в противном случае они не смогли бы. Мы считаем, что служба STT делает голосовые каналы Discord более доступными, и это основная причина, по которой наши постоянные пользователи продолжают использовать эту службу.

Комментарии о боте Discord SeaVoice

Еще одной интересной темой, найденной в логах, были комментарии о самом боте. К счастью, мы увидели несколько очень положительных комментариев о боте и его производительности.

Пользователь SeaVoice комментирует точность транскрипции.

Пользователь SeaVoice комментирует точность транскрипции.

Мы также нашли несколько конструктивных отзывов.

Пользователь SeaVoice предлагает улучшение для британских акцентов.

Пользователь SeaVoice предлагает улучшение для британских акцентов.

Пользователь сравнивает производительность SeaVoice на акцентированном английском с Siri.

Пользователь сравнивает производительность SeaVoice на акцентированном английском с Siri.

Большинство конструктивных комментариев касались того, что бот плохо работал с английским языком с неамериканским акцентом; в частности, пользователи упоминали британский и шотландский акценты. Для будущего наших служб STT мы могли бы приложить значительные усилия для улучшения нашего распознавания речи для различных акцентов английского языка. Конечно, английский — не единственный язык, на котором говорят наши пользователи, поэтому мы также планируем добавить больше языковой поддержки для бота. Фактически, в настоящее время мы завершаем интеграцию STT и TTS на тайваньском мандаринском диалекте и вскоре выпустим обновленную версию бота.

Конфиденциальность, чувствительность данных и потенциально оскорбительный контент

Разработка ИИ окружена потоком этических дилемм. Наши модели нуждаются в огромном количестве реальных пользовательских данных для хорошей работы, но как мы собираем эти данные этично, соблюдая конфиденциальность наших пользователей? Модели учатся только на основе предоставленных им данных и поэтому имеют (потенциально непредвиденные) предубеждения; так как же мы можем убедиться, что наши модели одинаково хорошо обслуживают всех наших пользователей? Кроме того, наши модели не имеют концепции социальной приемлемости и могут давать результаты, которые некоторые пользователи считают оскорбительными. Как выразился один из наших пользователей: «Является ли это расизмом, если это делает бот, вот в чем вопрос».

Пользователь SeaVoice указывает на проблемную неточную транскрипцию.

Пользователь SeaVoice указывает на проблемную неточную транскрипцию.

Причина, по которой я поднимаю эти вопросы, заключается в нескольких тревожных транскрипциях в логах. Первая проблема заключается в том, что бот иногда транскрибирует оскорбительный контент. В приведенном выше примере бот случайно транскрибировал имя пользователя как расистское оскорбление. Очевидно, это ошибка со стороны бота, которая может быть оскорбительной для наших пользователей и должна быть расследована. Но это приводит к новым вопросам: где мы проводим границу между оскорблением и вредом?

Пользователь SeaVoice комментирует попытку цензурировать определенные слова из транскрипции.

Пользователь SeaVoice комментирует попытку цензурировать определенные слова из транскрипции.

Что ж, для начала мы решили предоставить эту власть пользователям. Одной из следующих функций, над которой мы будем работать, является настраиваемая цензура TTS и STT. Это позволит серверам опционально применять цензуру для нецензурных выражений, сексуального контента, расистских оскорблений и т. д.

Пользователь SeaVoice предупреждает другого участника о том, что то, что они говорят, попадет в транскрипцию.

Пользователь SeaVoice предупреждает другого участника о том, что то, что они говорят, попадет в транскрипцию.

Интересно, что еще одна связанная проблема, которую мы наблюдали, заключалась в том, что пользователи самоцензурировались, чтобы избежать появления определенных вещей в транскрипции. Это было удивительно распространено, и я видел много случаев, когда пользователи объясняли, что они не хотели, чтобы бот транскрибировал то, что они собирались сказать, поэтому они останавливались, а затем перезапускали STT. Это совершенно обоснованное опасение со стороны пользователя, если, например, они не хотят, чтобы бот транскрибировал конфиденциальную информацию.

Как приостановить STT, заглушив бота.

Как приостановить STT, заглушив бота.

Я не уверен, что мы можем как-либо улучшить пользовательский опыт в этом случае, но я бы посоветовал пользователям, что они могут временно «заглушить» бота, чтобы прекратить отправку любого аудио боту. В этом случае бот не будет получать никаких аудиоданных, пока он не будет «разглушен», поэтому пользователь может по сути приостановить сеанс STT, не останавливая и не начиная новый.

Пользователь SeaVoice комментирует дискомфорт другого участника с ботом.

Пользователь SeaVoice комментирует дискомфорт другого участника с ботом.

Наконец, последняя проблема, которую мы наблюдали, заключается в том, что некоторые пользователи чувствуют себя настолько некомфортно с транскрипцией бота, что активно избегают говорить в голосовом канале, когда бот присутствует. Это полная противоположность нашей цели, которая заключается в том, чтобы сделать голосовые каналы Discord более доступными для всех. Хотя мы надеемся, что пользователи примут нашу политику конфиденциальности и доверят нам ответственное использование своих данных, мы абсолютно уважаем право каждого на конфиденциальность. Таким образом, следующей функцией, которую мы будем реализовывать, будет настройка отказа от STT. Это позволит любому пользователю исключить себя из записи и транскрипции STT, и их аудиоданные не будут доступны или собираться ботом каким-либо образом.

Мы надеемся, что эти запланированные функции позволят нам продолжать делать голосовые каналы более доступными для всех, предоставляя пользователям возможность взаимодействовать с ботом SeaVoice на комфортном для них уровне. В дальнейшем мы будем продолжать прилагать усилия для проактивного решения этих сложных проблем, чтобы сделать SeaVoice максимально эффективным!

Благодарим вас за интерес к нашему боту Discord и благодарим наших пользователей за постоянную поддержку! Вы можете узнать больше о нашем продукте STT на нашей домашней странице SeaVoice Speech-to-Text. Для индивидуальной демонстрации любого из наших продуктов Voice Intelligence заполните форму бронирования демонстрации.

Если вы еще не пробовали бота SeaVoice, вы можете узнать больше о нашем боте и добавить его на свой сервер из вики бота Discord SeaVoice. Также не стесняйтесь присоединиться к нашему официальному серверу Discord SeaVoice.

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.