Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
데모에서 성공까지: 현대 회의의 함정 (2/5)

데모에서 성공까지: 현대 회의의 함정 (2/5)

이 블로그 시리즈의 두 번째 부분에서는 Seasalt.ai가 협업 현대 회의 솔루션인 SeaMeet을 만드는 여정을 따라갑니다.

SeaMeet

이 블로그 시리즈 전체에서 Seasalt.ai가 겸손한 시작부터 다양한 하드웨어 및 모델에서 서비스를 최적화하고 최첨단 NLP 시스템을 통합하며 마침내 협업 현대 회의 솔루션인 SeaMeet을 완전히 구현하기까지의 여정을 따라갑니다.

현대 회의의 함정

개발 과정에서 우리는 명확한 원인이나 해결책 없이 예측할 수 없는 많은 장애물에 부딪혔습니다.

빠른 시작

첫 번째 장애물은 도구를 작동시키는 것이었습니다. Azure는 Linux와 호환되는 Modern Meetings 샘플을 제공하여 기뻤지만, Windows에서 SDK를 사용하여 데모를 실행하는 것이 훨씬 쉽다는 것을 알게 되었습니다. 결국 Microsoft 제품이었으니까요. 제공된 샘플을 Linux에서 실행하려는 수많은 실패한 시도 끝에, 결국 그 길을 포기하고 Windows로 돌아섰습니다. 마침내 우리는 기능적인 음성 전사기를 갖게 되었고, 이는 엄청난 시작이었습니다.

지연 시간

우리가 경험한 한 가지 문제는 프런트 엔드 UI에서 인식 결과를 받는 데 약 5초의 지연이 발생했다는 것입니다. 5초는 상당히 빠르다고 생각할 수 있지만, 이 지연은 편리하고 실용적인 솔루션이 되기에는 몇 초 정도 너무 느리다는 것을 알 수 있습니다. 특히 실시간 통신에서는 더욱 그렇습니다.

Azure Speech SDK에 의한 음성 전사를 위한 기본 UI

Azure Speech SDK에서 제공하는 음성 전사를 위한 기본 UI

지연 시간은 백엔드에서도 심각한 문제였습니다. 각 회의 시작 시 결과는 실시간으로 나타났지만(광고된 대로!), 회의가 진행될수록 지연 시간은 주기적으로 최대 30초까지 치솟았고, 그제야 텍스트가 모니터에 나타났습니다. 그 시점에는 이미 말한 내용은 대화에서 오래전에 무의미해졌습니다. 수많은 테스트 끝에 우리는 지연 시간이 하루 종일 변한다는 것을 알아차리기 시작했고, 이는 당시 Azure 서버의 부하 때문이라고 생각했습니다. 우리는 일관되고 신뢰할 수 있는 제품을 만드는 사업을 하고 있으므로, 이러한 변동적이고 예측 불가능한 지연은 용납할 수 없었습니다. 우리 자신의 모델과 서버에 의존해야 할 이유가 더욱 많아졌습니다.

방언

우리가 처음부터 Azure Speech Service를 사용한 특별한 이유 중 하나는 다양한 언어와 방언에 대한 광범위한 지원 때문이었습니다. 우리는 특히 Azure Speech Service의 싱가포르 영어 모델을 활용하는 데 흥분했습니다. 그러나 싱가포르 방언의 경우 미국 영어 모델이 싱가포르 영어 모델보다 지속적으로 더 나은 성능을 보였다는 사실을 발견했을 때의 놀라움을 상상해 보십시오. 더욱이, 최고의 모델조차도 실제 세계의 도전에 미치지 못했습니다.

“축하합니다! 아들인가요, 딸인가요?”의 전사 결과

우리는 “ola regulations may be boiled baby cool”과 같은 결과를 보았는데, 실제 발언은 “축하합니다! 아들인가요, 딸인가요?”였습니다. 잘 훈련된 언어 모델이라면 그러한 전사를 제거했어야 합니다. 이것은 극단적인 예이지만, 종종 각 전사에 오류가 있었습니다. 누락된 관사나 오해된 단어와 같이 아무리 작은 오류라도 모든 실수는 주의를 산만하게 하고 전사 서비스의 명성을 쉽게 망칠 수 있습니다.

Windows 업데이트

몇 주 후, 팀은 며칠 남지 않은 고객 시연을 위해 제품이 준비되었는지 확인하기 위해 밤샘 작업을 했습니다. 저희 회의 전사기는 세 대의 개별 Windows 노트북에서 원활하게 작동했습니다. 그러던 어느 날 갑자기, 아무도 코드를 건드리지 않았음에도 불구하고 작동하는 컴퓨터가 한 대밖에 남지 않았습니다. 우리는 네트워크를 테스트하고, 방화벽을 확인하고, 갑자기 제품이 고장날 수 있는 모든 것을 생각했습니다. 우리의 마지막 추측은 예기치 않은 Windows 업데이트로 인해 Azure Speech SDK가 두 대의 컴퓨터와 설명할 수 없을 정도로 호환되지 않게 되었다는 것이었습니다. 세 시스템을 비트 단위로 비교했을 때 말이죠. 시연이 빠르게 다가오면서 스트레스와 긴장은 극에 달했습니다. 시스템이 하나밖에 남지 않자, 팀은 코드를 변경하지 않고 절대로 업데이트하지 않기로 약속했습니다. 이 시련을 겪고 나니 우리는 충분히 배웠습니다.

현대 회의를 넘어서

이러한 장애물을 극복하기 위해 Seasalt.ai 팀은 Azure의 대화형 전사기의 기능에 필적하는 자체 음향 및 언어 모델을 훈련하기 시작했습니다. 전체 과정에서 우리는 계속해서 질문했습니다. 여기서 어디로 가야 할까요? 이미 중요한 이 제품을 어떻게 확장할 수 있을까요?

현대 회의는 강력한 음성-텍스트 변환 잠재력을 보여주었지만, 거기서 멈춥니다. 그것은 우리의 말을 들을 수 있지만, 우리를 위해 생각하게 할 수 있다면 어떨까요? 전사만으로는 제품이 인상적이지만, 응용 프로그램은 다소 제한적입니다. 음성 전사에서 음성 지능으로 전환하면 우리가 만들 수 있는 것의 문이 활짝 열립니다. 지능의 예로는 회의 요약, 주제 추상화 및 행동 추출이 있습니다. 마지막으로, 모든 것을 멋진 패키지로 묶는 아름다운 인터페이스를 디자인합니다.

그리고 이것이 지금까지의 이야기입니다. Seasalt.ai가 빠르게 진화하는 시장에 최고의 비즈니스 솔루션을 제공하고 전 세계에 전달하기 위한 여정의 시작입니다. 자세한 내용을 알고 싶으시면 블로그 시리즈의 나머지 부분을 계속 읽어주세요.

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.