Discord에서 가장 빠르고 정확한 텍스트-음성 및 음성-텍스트 봇 중 하나인 SeaVoice를 출시한 후, 우리는 사용자들이 실제로 서비스와 어떻게 상호 작용하는지 이해하고 싶었습니다. 이 블로그에서는 몇 주간의 실제 음성-텍스트 사용자 데이터를 검토한 후 우리의 발견을 논의할 것입니다.

SeaVoice: 텍스트-음성 및 음성-텍스트 Discord 봇

Discord는 주로 오디오 및 텍스트 기반 채팅의 조합에 사용되는 플랫폼으로, 음성 지능 및 자연어 처리 서비스에 대한 환상적인 테스트 장소입니다. 우리는 텍스트-음성 및 음성-텍스트 명령이 장착된 SeaVoice 봇을 2022년 8월에 Discord에 배포했습니다. 봇이 작동하는 방식에 대해 자세히 알아보거나 짧은 비디오 데모를 보려면 SeaVoice 봇 위키를 방문할 수 있습니다. 같은 해 11월, 우리는 사용자가 SeaVoice 봇과 어떻게 상호 작용하는지에 대한 익명 데이터를 기록할 수 있도록 하는 중요한 백엔드 개선 사항(블로그 게시물: SeaVoice Discord 봇: 백엔드 및 안정성 개선에 설명됨)이 포함된 새 버전을 출시했습니다. 지난 블로그(TTS Discord 봇 사례 연구)에서는 텍스트-음성 명령에서 1개월간의 사용자 데이터를 분석했습니다. 후속 조치로, 이 게시물에서는 약 3주간의 음성-텍스트 사용자 데이터를 살펴볼 것입니다.

SeaVoice STT 사용량

작성 시점 현재, SeaVoice 봇은 거의 900개의 서버에 추가되었습니다! 약 260개의 서버에서 총 600명 이상의 참가자가 STT 명령을 최소 한 번 이상 시도했습니다. 지난 3주 동안 우리는 거의 1,800개의 STT 세션을 호스팅했으며 총 50만 줄 이상의 전사본을 출력했습니다.

SeaVoice Discord 봇의 3주간 일일 음성-텍스트 세션.

하루 STT 세션의 총 수를 살펴보면, 최소 40개에서 140개 이상으로 변동할 수 있음을 발견했습니다(평균 약 70개). 우리가 생산하는 전사본 줄의 총 수도 고려할 수 있습니다. 가장 느린 날에는 1만 줄 미만을 생산하지만, 바쁜 날에는 4만 줄 이상을 생산했습니다. 예를 들어, 1월 18일에는 102개의 STT 세션을 호스팅했으며 총 3만 줄 미만의 전사본을 생성했습니다. 이는 거의 40시간의 녹음 시간에 해당합니다.

우리는 또한 대부분의 세션이 짧은 대화에 사용되지만(세션당 중앙값 57줄), 세션당 평균 650줄까지 끌어올리는 매우 긴 세션이 상당수 있음을 발견했습니다. 가장 긴 세션은 3만 줄이 넘었으며, 이는 평균 하루치보다 많았습니다! 마지막으로, 각 세션에 참여하는 사용자 수를 살펴보았는데, 일반적으로 각 세션에 4~5명의 사용자가 있음을 발견했습니다. 하지만 한 번은 45명의 참가자가 있는 가상 세미나에서 실시간 전사를 지원하기 위해 봇을 사용했습니다!

SeaVoice Discord 봇이 3주간 하루에 전사한 줄 수.

대부분의 서버가 STT 세션을 몇 번 이상 사용하지 않았지만, 이 서비스를 광범위하게 사용하는 서버도 꽤 많습니다. 12월 말에 STT 사용 데이터를 기록하기 시작한 이래로, 서버당 평균 총 세션 수는 약 7개입니다. 그러나 우리 #1 서버는 131개의 세션을 기록했습니다. 이는 하루 평균 6개 이상의 세션입니다! 같은 서버는 단 3주 만에 15만 줄 이상의 음성을 전사했습니다! 아마도 그보다 더 인상적인 것은, 우리 #1 사용자가 같은 서버 출신이며 자신의 음성이 6만 줄 이상 전사되었다는 것입니다!

관찰

사람들이 음성-텍스트를 사용하는 이유

SeaVoice Discord 봇 사용자가 영구적인 오디오 및 전사 파일에 대한 흥분을 표현합니다.

그래서 사용 데이터를 본 후 우리의 첫 번째 질문은: 왜 자주 사용하는 사용자들이 애초에 음성-텍스트를 사용하는가?

우리는 데이터베이스를 통해 몇 가지 설명을 찾았습니다. 그러나 TTS 서비스와 달리 사용자들이 STT 서비스를 사용하는 구체적인 이유를 찾는 것은 더 어려웠습니다. 분명히 사람들은 TTS를 사용하는 이유를 채팅의 다른 사람들에게 설명해야 한다고 느끼지만, STT는 덜 그렇습니다. 그럼에도 불구하고, 나는 사용자들이 STT 서비스를 사용하기로 결정하는 이유에 대한 통찰력을 제공하는 몇 가지 흥미로운 전사본을 발견했습니다.

사용자들이 STT를 사용하는 이유:

“이것이 전사본이 사용되는 이유입니다. 제가 놓친 것들을 볼 수 있기 때문입니다.”
“[사용자]는 청각 장애가 있어서, 그것을 전사하는 봇을 얻습니다.”
“[사용자]는 그들과 함께 레이드를 하고, 그들은 그것을 사용하여 물건을 전사하지만, [사용자]는 ‘오, 우리는 ******* D와 D에도 사용할 수 있어’라고 말했습니다.”
“나중에 이 전사본들을 다시 읽을 수 있기를 기다릴 수 없습니다 […] 그 녹음을 다시 듣고 그 전사본을 다시 보고 싶습니다.”
“여기서 회의를 하면, 회의 전사본을 AI에 공급할 수 있습니다.”
“사람들과의 회의 중에, 전사본을 실제로 보는 것은 좋습니다.”
“채팅에 없는 [사람들]이나 커뮤니티에 있지만 음성 채팅에 참여하지 않는 사람들이지만, 그들은 보고 읽기로 결정합니다.”

따라서 일반적으로 대부분의 사용자는 대화를 추적하고 놓친 부분을 채우는 데 도움이 되는 실시간 전사본의 편리함을 즐기는 것으로 보입니다. 이는 특히 청각 장애가 있거나 오디오/연결 문제가 있는 사용자에게 해당됩니다. 일부 사용자에게 가장 큰 장점은 대화의 영구적인 오디오 및 텍스트 기록을 유지하는 것입니다. 이는 Dungeons & Dragons 세션 로그를 유지하거나 중요한 회의 기록을 유지하는 것과 같은 사용 사례에 특히 적용될 수 있습니다.

많은 사용자가 STT 서비스를 사용하는 이유를 명시적으로 밝히지 않았기 때문에, 봇을 사용하는 동안 그들이 무엇을 하고 있었는지 파악하는 것도 유용해 보였습니다. 사용자로부터의 전사본을 검토하여 전사하는 동안 그들이 어떤 활동을 하고 있었는지에 대한 힌트를 얻었습니다.

사용자들이 STT를 사용하는 동안 하는 일:

그냥 채팅
- 게임:
- 캐주얼 게임
- 고급 게임 (예: MMO, 대규모 멀티플레이어 온라인, 레이드 그룹 조정)
롤플레잉 게임 (Dungeons & Dragons)
스트리밍 / 콘텐츠 녹화
학교 / 전문 / 자원 봉사 작업 논의

대부분의 전사본은 “그냥 채팅” 및 “캐주얼 게임” 범주에 속합니다. 위에서 보았듯이, 이 경우 대부분의 사용자는 Discord 음성 채널의 접근성을 향상시키기 위해 봇을 사용하거나, 대화에서 놓친 부분을 채우기 위해 실시간 전사본을 보는 편리함을 즐기는 것으로 생각합니다. 일부 경우(MMO 레이드에 사용되는 경우와 같이) 게임 토론은 매우 복잡하며 사용자는 실시간으로 서로 협력합니다. 실시간 전사본은 사용자가 게임을 하면서 전사본을 참조할 수 있으므로 팀의 성공에 매우 유용할 수 있습니다.

MMO 레이드 중 복잡한 토론의 예.

또한 많은 사용자가 학교, 전문 및/또는 자원 봉사 커뮤니티 회의와 같은 더 진지한 대화를 전사하기 위해 봇을 사용하는 것으로 보입니다. 우리는 또한 온라인 기술 컨퍼런스인 UnTechCon을 전사하기 위해 봇을 사용했습니다. 이러한 경우 최종 녹음 및 전사 파일은 회의 후 사용자가 검토하는 데 매우 유용할 수 있습니다. 제가 찾은 마지막 흥미로운 예는 사용자가 자신의 스트림을 위해 콘텐츠를 녹음하는 것이었습니다. 최종 전사본에는 타임스탬프가 포함되어 있으므로 사용자는 전사 파일을 녹음된 오디오 또는 비디오 콘텐츠의 자막으로 업로드할 수 있습니다.

SeaVoice 사용자가 Discord 음성 채널을 더 쉽게 접근할 수 있도록 해준 것에 대해 감사를 표합니다.

그러나 STT 서비스를 사용하는 정확한 이유와 관계없이 많은 사용자가 음성 채널 대화에 참여할 수 있게 된 것에 대해 흥분을 표현했습니다. 우리는 STT 서비스가 Discord 음성 채널을 더 쉽게 접근할 수 있도록 한다고 믿으며, 이것이 우리 일반 사용자들이 서비스를 계속 사용하는 주된 이유입니다.

SeaVoice Discord 봇에 대한 의견

로그에서 발견된 또 다른 흥미로운 주제는 봇 자체에 대한 의견이었습니다. 다행히도, 우리는 봇과 그 성능에 대해 매우 긍정적인 몇 가지 의견을 보았습니다.

SeaVoice 사용자가 전사 정확도에 대해 언급합니다.

우리는 또한 몇 가지 건설적인 피드백을 발견했습니다.

SeaVoice 사용자가 영국식 악센트에 대한 개선을 제안합니다.

사용자가 SeaVoice의 악센트 영어 성능을 Siri와 비교합니다.

대부분의 건설적인 의견은 봇이 비미국식 악센트 영어에서 잘 작동하지 않는다는 것과 관련이 있었습니다. 특히 사용자들은 영국식 및 스코틀랜드식 악센트를 언급했습니다. STT 서비스의 미래를 위해, 우리는 다양한 영어 악센트에 대한 음성 인식을 개선하기 위해 상당한 노력을 기울일 수 있습니다. 물론, 영어는 우리 사용자들이 사용하는 유일한 언어가 아니므로, 우리는 봇에 더 많은 언어 지원을 추가할 계획입니다. 실제로, 우리는 현재 대만 만다린 STT 및 TTS 통합을 마무리하고 있으며, 곧 업데이트된 버전의 봇을 출시할 예정입니다.

개인 정보 보호, 데이터 민감도 및 잠재적으로 불쾌한 콘텐츠

AI 개발은 윤리적 딜레마의 홍수에 둘러싸여 있습니다. 우리의 모델은 잘 작동하기 위해 방대한 양의 실제 사용자 데이터가 필요하지만, 사용자의 개인 정보를 존중하면서 윤리적으로 데이터를 수집하는 방법은 무엇일까요? 모델은 제공된 데이터에만 기반하여 학습하므로 (잠재적으로 예측할 수 없는) 편향을 가집니다. 그렇다면 우리의 모델이 모든 사용자에게 동등하게 잘 서비스하도록 어떻게 보장할 수 있을까요? 또한, 우리의 모델은 사회적 수용성 개념이 없으며 일부 사용자가 불쾌하다고 생각하는 결과를 생성할 수 있습니다. 우리 사용자 중 한 명이 유창하게 말했듯이: “봇이 그렇게 한다면 인종차별적인가요? 그것이 문제입니다.”.

SeaVoice 사용자가 문제가 있는 부정확한 전사본을 지적합니다.

제가 이러한 점들을 언급하는 이유는 로그에 있는 몇 가지 우려스러운 전사본 때문입니다. 첫 번째 문제는 봇이 가끔 불쾌한 콘텐츠를 전사한다는 것입니다. 위 예시에서 봇은 실수로 누군가의 사용자 이름을 인종차별적인 욕설로 전사했습니다. 분명히 이것은 봇의 오류이며 사용자에게 불쾌감을 줄 수 있으므로 조사해야 합니다. 그러나 이것은 더 많은 질문으로 이어집니다. 불쾌감과 해악 사이의 경계를 어디에 두어야 할까요?

SeaVoice 사용자가 전사본에서 특정 단어를 검열하려는 시도에 대해 언급합니다.

음, 우선 우리는 그 권한을 사용자에게 주기로 결정했습니다. 우리가 작업할 다음 기능 중 하나는 TTS 및 STT의 구성 가능한 검열입니다. 이를 통해 서버는 욕설, 성적인 콘텐츠, 인종차별적인 욕설 등을 선택적으로 검열할 수 있습니다.

SeaVoice 사용자가 다른 참가자에게 자신이 말하는 내용이 전사본에 남을 것이라는 점을 인지하도록 경고합니다.

흥미롭게도, 우리가 본 또 다른 관련 문제는 사용자들이 전사본에 특정 내용이 나타나지 않도록 자기 검열을 한다는 것이었습니다. 이는 놀랍도록 흔했으며, 사용자들이 자신이 말하려는 내용을 봇이 전사하지 않기를 원했기 때문에 STT를 중단하고 다시 시작하는 경우가 많았습니다. 예를 들어, 사용자가 민감한 정보를 봇이 전사하지 않기를 원한다면, 이는 사용자 측에서 완전히 유효한 우려입니다.

봇을 음소거하여 STT를 일시 중지하는 방법.

이 경우 사용자 경험을 개선할 수 있는 방법이 있는지 확실하지 않지만, 사용자에게 봇에 오디오를 보내는 것을 중지하기 위해 봇을 일시적으로 “음소거”할 수 있다고 조언하고 싶습니다. 이 경우 봇은 “음소거 해제”될 때까지 오디오 데이터를 전혀 받지 않으므로, 사용자는 새 세션을 중지하고 시작하지 않고도 STT 세션을 일시 중지할 수 있습니다.

SeaVoice 사용자가 다른 참가자가 봇에 대해 불편함을 느끼는 것에 대해 언급합니다.

마지막으로, 우리가 본 마지막 문제는 일부 사용자들이 봇의 전사에 대해 너무 불편함을 느껴 봇이 있을 때 음성 채널에서 말하는 것을 적극적으로 피한다는 것입니다. 이는 Discord 음성 채널을 모든 사람에게 더 쉽게 접근할 수 있도록 하는 우리의 목표와는 완전히 반대입니다. 우리는 사용자들이 우리의 개인 정보 보호 정책을 수락하고 데이터를 책임감 있게 사용하도록 우리를 신뢰하기를 바라지만, 우리는 모든 사람의 개인 정보 보호 권리를 절대적으로 존중합니다. 따라서 우리가 구현할 다음 기능은 STT 옵트아웃 설정입니다. 이를 통해 모든 사용자는 STT 녹음 및 전사에서 자신을 제외할 수 있으며, 그들의 오디오 데이터는 봇에 의해 어떤 식으로든 접근되거나 수집되지 않을 것입니다.

이러한 계획된 기능들이 음성 채널을 모든 사람에게 더 쉽게 접근할 수 있도록 계속 만들면서, 사용자들이 편안하게 SeaVoice 봇과 상호 작용할 수 있는 권한을 부여할 수 있기를 바랍니다. 앞으로도 우리는 SeaVoice를 최고로 만들기 위해 이러한 어려운 문제들을 적극적으로 해결하기 위해 계속 노력할 것입니다!

저희 Discord 봇에 관심을 가져주셔서 감사드리며, 지속적인 지원을 해주시는 사용자 여러분께 감사드립니다! STT 제품에 대한 자세한 내용은 SeaVoice 음성-텍스트 홈페이지에서 확인할 수 있습니다. 음성 지능 제품에 대한 일대일 데모를 원하시면 데모 예약 양식을 작성하십시오.

아직 SeaVoice 봇을 사용해보지 않았다면, SeaVoice Discord 봇 위키에서 봇에 대해 자세히 알아보고 서버에 추가할 수 있습니다. 또한 공식 SeaVoice Discord 서버에 자유롭게 참여하십시오.