Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
디스코드의 텍스트 음성 변환: TTS 디스코드 봇 사례 연구

디스코드의 텍스트 음성 변환: TTS 디스코드 봇 사례 연구

이 블로그에서는 몇 달간의 실제 텍스트 음성 변환 데이터를 검토한 후 실제 디스코드 사용자가 당사 서비스를 어떻게 활용하는지에 대한 당사의 발견을 논의할 것입니다.

SeaVoice Discord

디스코드에서 가장 빠르고 정확한 텍스트 음성 변환 및 음성 텍스트 변환 봇 중 하나인 SeaVoice를 출시한 후, 우리는 사용자들이 실제로 서비스와 어떻게 상호 작용하는지 이해하고 싶었습니다. 이 블로그에서는 몇 달간의 실제 텍스트 음성 변환 사용자 데이터를 검토한 후 우리의 발견을 논의할 것입니다.

SeaVoice: 텍스트 음성 변환 및 음성 텍스트 변환 디스코드 봇

디스코드는 주로 오디오 및 텍스트 기반 채팅을 결합하여 사용되는 플랫폼으로, 음성 지능 및 자연어 처리 서비스에 대한 환상적인 테스트 장입니다. 우리는 2022년 8월에 텍스트 음성 변환 및 음성 텍스트 변환 명령을 갖춘 SeaVoice 봇을 디스코드에 배포했습니다. 봇 작동 방식에 대해 자세히 알아보거나 짧은 비디오 데모를 보려면 SeaVoice 디스코드 봇 위키를 방문하십시오. 같은 해 11월, 우리는 이전 블로그 게시물(SeaVoice 디스코드 봇: 백엔드 및 안정성 개선)에서 설명한 바와 같이 중요한 백엔드 개선 사항이 포함된 새 버전을 출시하여 사용자가 SeaVoice 봇과 어떻게 상호 작용하는지에 대한 익명 데이터를 기록할 수 있게 했습니다. 이 블로그에서는 텍스트 음성 변환 명령에서 1개월간의 사용자 데이터를 살펴보겠습니다.

SeaVoice TTS 사용량

SeaVoice 디스코드 봇의 7주간 일일 텍스트 음성 변환 사용량.

SeaVoice 디스코드 봇의 7주간 일일 텍스트 음성 변환 사용량.

이 글을 쓰는 시점에서 SeaVoice 봇은 거의 800개의 서버에 추가되었습니다! 11월에 사용량 데이터 기록을 시작한 이래로, 하루 총 요청 수가 150개에서 1,300개 이상으로 변동할 수 있다는 것을 발견했습니다(평균 약 560개). 약 650명의 사용자가 TTS 명령을 최소 한 번 이상 시도했습니다. 그러나 대부분의 사용자는 시도한 후에도 정기적으로 계속 사용하지 않습니다. TTS 명령을 시도한 650명의 사용자 중 약 200명은 20회 이상 사용했으며, 100명만이 50회 이상 사용했습니다. 그럼에도 불구하고, TTS 명령을 즐기고 의존하는 사람들은 광범위하게 사용합니다! 우리의 상위 5명의 사용자는 지난 두 달 동안 각각 1,000개 이상의 요청을 제출했으며, 상위 사용자는 혼자서 거의 2,500개의 요청을 제출했습니다!

관찰

사람들이 텍스트 음성 변환을 사용하는 이유

SeaVoice 디스코드 봇 사용자가 텍스트 음성 변환을 활용하는 이유.

SeaVoice 디스코드 봇 사용자가 텍스트 음성 변환을 활용하는 이유.

따라서 사용량 데이터를 본 후 우리의 첫 번째 질문은: 왜 자주 사용하는 사용자가 처음부터 TTS를 활용하는가? 우리는 몇 가지 설명을 찾기 위해 데이터베이스를 살펴보았습니다. 다음은 일부 사용자의 실제 TTS 명령입니다.

왜 말을 안 해?

- 그리고 밥 먹고 있어서 말 못 해
- 사실 말하고 싶지만 지금은 직장에 있어요.
- 말하면 가족이 깨어나요
- 죄송해요, 너무 많이 말하지 않을 거예요. 목이 너무 아파요.
- 말할 수 있는데 엄마가 여기 계세요
- 오늘은 너무 게을러서 말하기 싫어요
- 아파서 말할 수 없지만 그래도 참여하고 싶었어요 :)
- 완전히 음소거된 건 아니고, 말하는 데 노력이 필요해요. 어떤 날은 많은 노력이 필요해요
- 죄송해요, 음소거했어요. 할머니가 전화 통화 중이시고 시끄러워요
- 마이크가 고장났기 때문이에요

이러한 설명을 찾은 후, 우리는 몇 가지 주요 이유로 요약할 수 있습니다.

  • 물리적 장벽이 있습니다(마이크 고장, 말하기 어려움, 질병 등),
  • 다른 일을 하느라 바쁩니다(식사, 직장 등),
  • 주변 환경이 너무 시끄럽거나 조용해야 합니다, 또는
  • 편리하고 사용하기를 좋아하기 때문입니다.

그러나 TTS 서비스를 사용하는 정확한 이유와 상관없이, 많은 사용자들이 그렇지 않았다면 참여할 수 없었을 음성 채널 대화에 참여할 수 있게 된 것에 대해 흥분을 표현했습니다. 우리는 TTS 서비스가 디스코드 음성 채널을 더 접근하기 쉽게 만든다고 믿으며, 이것이 우리 일반 사용자들이 이 서비스를 계속 활용하는 주된 이유입니다.

언어 사용

대화를 검토하면서 눈에 띄었던 한 가지는 많은 사용자가 다른 언어로 텍스트 음성 변환 명령을 사용하려고 시도했다는 것입니다. 일부 사용자는 작동하는지 확인하고 싶었거나 발음이 우스꽝스럽다고 생각했지만, 다른 사용자들은 영어 이외의 언어로 TTS를 장기간 계속 사용했습니다!

사용자가 영어 SeaVoice TTS 모델의 스페인어 발음을 테스트합니다.

사용자가 영어 SeaVoice TTS 모델의 스페인어 발음을 테스트합니다.

이것은 특히 스페인어 사용자에게 해당되었는데, (위의 사용자가 언급했듯이) 모델이 영어로만 훈련되었기 때문에 스페인어 TTS 성능이 좋지 않았습니다. 저는 영어 이외의 언어로 TTS 명령을 사용하려는 사용자를 만날 때마다 기록하기 시작했습니다.

TTS에 비영어 요청을 보내려는 시도 횟수.

TTS에 비영어 요청을 보내려는 시도 횟수.

위 표는 TTS 명령에서 해당 언어를 사용한 인스턴스가 하나 이상 있는 모든 대화의 수를 보여줍니다. 분명히 스페인어가 가장 흔하며, 많은 사용자가 성능이 좋지 않음에도 불구하고 스페인어로 TTS 기능을 계속 사용했다는 사실과 결합하면 디스코드에 스페인어 TTS에 대한 실행 가능한 대안이 아직 없는지 궁금해집니다. 어느 쪽이든, 사람들은 다른 언어로 우리의 TTS 서비스를 사용하려고 하므로, 우리는 어떤 언어가 가장 수요가 많은지 추적하고 이 데이터를 사용하여 새로운 모델 훈련에 정보를 제공할 수 있습니다.

봇에 대한 의견

로그에서 발견된 또 다른 흥미로운 주제는 봇 자체에 대한 의견이었습니다. 다행히도, 우리는 봇과 그 성능에 대한 매우 긍정적인 의견을 많이 보았습니다.

사용자가 봇이 자신을 더 포용적으로 느끼게 한다고 언급합니다.

사용자가 봇이 자신을 더 포용적으로 느끼게 한다고 언급합니다.

가장 감동적인 의견은 음성 채널에서 소외감을 느꼈지만, 봇이 제공하는 추가 접근성 덕분에 이제 참여할 수 있게 된 사람들의 것이었습니다.

우리는 또한 몇 가지 건설적인 피드백을 발견했습니다.

사용자가 TTS 속도가 문제라고 언급합니다.

사용자가 TTS 속도가 문제라고 언급합니다.

한 사용자는 사용자가 전체 문장을 입력한 다음 보내야 하므로 TTS가 일반적인 말하기보다 느리다고 언급했습니다. 따라서 때때로 TTS 발언이 대화에서 약간 늦게 말해집니다. 이전 섹션에서 언급했듯이, 우리는 추가 언어 지원 요청과 함께 봇을 사용하여 언어 간 번역을 할 수 있기를 바라는 사용자도 보았습니다. 이러한 종류의 피드백을 주시하는 것은 앞으로 기능을 계획하고 개선하는 데 도움이 될 것입니다.

참신함

TTS 명령의 전체 컬렉션을 훑어본 후, 발언의 약 3분의 2는 서버의 친구 및 다른 사람들과의 일반적인 대화에서 사용된다고 말할 수 있습니다. 대부분의 사람들은 게임을 하고 친구들과 채팅을 하며, 이러한 사용자들은 TTS 서비스를 정기적으로 사용하는 경향이 있습니다. 반면에 나머지 3분의 1의 발언은 “그냥 장난치는 것” 범주에 속합니다. 원하는 것을 목소리로 말하게 할 수 있는 완전한 권한이 주어지면, 웃음을 위해 생각할 수 있는 가장 어리석거나 가장 외설적인 것을 선택하는 것이 인간의 본성이라고 생각합니다. 저는 초등학교 컴퓨터실에 앉아 Microsoft Sam(당시에는 매우 첨단 기술이었습니다)에게 “똥”이나 “엉덩이” 같은 말을 시킬 수 있는지 확인하면서 몇 시간 동안 즐거워했던 기억이 납니다. 음, 저와 같은 아이들은 자라서 더 풍부한 어휘를 얻었고, 결국 디스코드의 TTS 서비스에서 같은 즐거움을 찾았다고 생각합니다.

사용자가 보낸 이상한 TTS 요청의 예.

사용자가 보낸 이상한 TTS 요청의 예.

때때로 사용자는 과도하게 긴 문자열, 특수 문자, 이모티콘, URL 등을 입력하여 봇을 고장내려고 합니다. 이것은 사람들이 소프트웨어의 한계를 테스트하는 고전적인 예이며, 실제로 우리의 서비스가 견고하고 사용자가 입력하는 모든 것을 처리할 수 있도록 하는 데 도움이 됩니다.

다른 경우에는 사용자가 TTS 서비스가 생각할 수 있는 가장 외설적이고 모욕적인 말을 하도록 하여 즐거움을 찾습니다. TTS 로그에서 제가 아는 모든 욕설(그리고 아마도 이전에 들어본 적 없는 일부 욕설), 인종 차별적 비방, 노골적인 성적 콘텐츠를 본 것 같습니다.

윤리 문제

불행히도 텍스트 음성 변환 애플리케이션은 혐오 발언이나 사이버 괴롭힘을 조장하는 등 불쾌한 방식으로 사용될 수 있습니다. 또한, 오디오 클립은 모델에서 합성되지만, 모델을 훈련하는 데이터는 실제 사람에게서 나오며, 좋은 모델의 출력은 원본과 거의 구별할 수 없을 정도로 들릴 수 있습니다.

따라서 이러한 점들은 실제 사용자가 TTS 서비스를 어떻게 사용(또는 남용)하는지 우리가 본 것과 결합되어, Seasalt.ai라는 회사와 SeaVoice 디스코드 봇에 대한 몇 가지 매우 중요한 질문을 제기합니다.

  • 회사로서 우리는 제품이 잠재적으로 불쾌하거나 해로운 방식으로 사용되기를 원하는가?
  • 성우는 텍스트 음성 변환 애플리케이션에서 자신의 목소리가 어떻게 활용되는지에 대해 어떤 권리를 가지는가?
  • 우리는 서비스 사용 방식을 검열할 권리나 책임이 있는가?

이러한 질문들은 단일 블로그 게시물에서 답변하거나 완전히 탐구할 수 없습니다. 그러나 회사는 디스코드 프로젝트를 진행하고 성우들과 계속 협력하면서 이러한 문제들을 지속적으로 고려해야 할 의무를 느낍니다.

저희 디스코드 봇 및 음성 지능 프로젝트에 관심을 가져주셔서 감사합니다! STT 제품에 대한 자세한 내용은 음성 텍스트 변환 홈페이지에서 확인할 수 있습니다. 음성 지능 제품 중 하나에 대한 일대일 데모를 원하시면 데모 예약 양식을 작성하십시오.

디스코드 측에서는 SeaVoice 디스코드 봇 위키에서 저희 봇에 대해 자세히 알아보고 서버에 추가할 수 있습니다. 또한 공식 SeaVoice 디스코드 서버에 자유롭게 참여하십시오.

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.