このブログシリーズ全体を通して、Seasalt.aiが包括的なモダンミーティング体験を創造するまでの道のりを追います。その謙虚な始まりから、さまざまなハードウェアやモデルでのサービスの最適化、最先端のNLPシステムの統合、そして最終的には共同モダンミーティングソリューションであるSeaMeetの完全な実現まで。

現代の会議の落とし穴

開発中、私たちは明確な原因や解決策のない予測不可能な障害に何度も遭遇しました。

クイックスタート

最初の障害は、ツールの動作確認でした。AzureはModern Meetingsのサンプルを提供しており、Linuxとの互換性があることに喜んでいましたが、WindowsでSDKを使用してデモを実行する方がはるかに簡単であることがわかりました。結局のところ、Microsoft製品でした。提供されたサンプルをLinuxで実行しようと何度も失敗した後、最終的にその道を断念し、Windowsに頼らざるを得ませんでした。最終的に、機能する音声転写装置を手に入れ、これは素晴らしいスタートでした。

レイテンシ

私たちが経験した問題の1つは、フロントエンドUIで認識結果を受信するまでに約5秒の遅延があったことです。5秒はかなり速いように思えるかもしれませんが、この遅延は、特にリアルタイム通信においては、便利で実用的なソリューションとしては数秒遅すぎると感じられます。

Azure Speech SDKが提供する音声転写のデフォルトUI

レイテンシはバックエンドでも深刻な問題でした。各会議の開始時には、結果はリアルタイムで（宣伝通りに！）届きましたが、会議が進むにつれて、テキストがモニターに表示されるまでにレイテンシが定期的に30秒にも跳ね上がることがありました。その頃には、言われたことは会話の中でとっくに無関係になっていました。数え切れないほどのテストの後、私たちはレイテンシが一日を通して変化することに気づき始めました。これは、その時点でのAzureのサーバー負荷に起因すると考えました。私たちは一貫性のある信頼性の高い製品を作成するビジネスを行っているため、このような変動的で予測不可能な遅延は許容できませんでした。自社のモデルとサーバーに頼るべき理由はなおさらです。

方言

私たちがそもそもAzure Speech Serviceを使用した特定の理由の1つは、多種多様な言語と方言に対する幅広いサポートでした。私たちは特にAzure Speech Serviceのシンガポール英語モデルを利用することに興奮していました。しかし、シンガポール方言の場合、米国英語モデルがシンガポール英語モデルを常に上回るパフォーマンスを示したことを発見したときの驚きを想像してみてください。さらに、最高のモデルでさえ、現実世界の問題に対応できませんでした。

「おめでとうございます！男の子ですか、女の子ですか？」の転写結果

「おめでとうございます！男の子ですか、女の子ですか？」という発言が、実際には「ola regulations may be boiled baby cool」のような結果になっていました。適切に訓練された言語モデルであれば、そのような転写は排除できたはずです。これは極端な例ですが、多くの場合、各転写にはエラーがありました。冠詞の欠落や単語の誤解など、どんなに小さなエラーであっても、どんな間違いも注意をそらし、転写サービスの評判を簡単に損なう可能性があります。

Windows Update

数週間後、チームは数日後に迫ったクライアントデモンストレーションのために、製品が準備万端であることを確認するために夜遅くまで作業していました。私たちの会議転写ツールは、3台の別々のWindowsラップトップでスムーズに動作していました。しかしある日、突然、誰もコードに触れていないにもかかわらず、動作するコンピューターが1台だけになってしまいました。私たちはネットワークをテストし、ファイアウォールをチェックし、製品が突然故障する可能性のあるあらゆることを考えました。私たちの最後の推測は、予期せぬWindowsアップデートが、3つのシステムをビット単位で比較したときに、Azure Speech SDKを2台のコンピューターと説明不能なほど非互換にしたということでした。ショーケースが間近に迫り、ストレスと緊張は限界に達していました。残されたシステムが1台だけになったため、チームはコードを変更しないこと、そして絶対にアップデートしないことを誓いました。この苦難の後、私たちはもう十分でした。

モダンミーティングを超えて

これらの障害を克服するため、Seasalt.aiのチームは、Azureの会話型転写機能に匹敵する独自の音響モデルと言語モデルのトレーニングに着手しました。プロセス全体を通して、私たちは常に「これからどうするのか？このすでに重要な製品をどのように拡張できるのか？」という問いを問い続けました。

モダンミーティングは堅牢な音声認識の可能性を示しましたが、それはそこまでです。それは私たちの話を聞くことができますが、私たちに代わって考えさせることができたらどうでしょうか。転写だけでは、製品は印象的ですが、アプリケーションはやや限定的です。音声転写から音声インテリジェンスへと移行することで、私たちが創造できるものの扉が大きく開かれます。インテリジェンスの例には、会議の要約、トピックの抽象化、アクションの抽出などがあります。最後に、すべてを素晴らしいパッケージにまとめる美しいインターフェースを設計します。

そして、これがこれまでの物語であり、Seasalt.aiが急速に進化する市場に最高のビジネスソリューションをもたらし、世界に提供するための旅の始まりです。詳細についてもっと知りたい場合は、ブログシリーズの残りの部分を読み続けてください。