Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
デモから成功へ:マイクロソフトのモダンミーティングとその先の実装(1/5)

デモから成功へ:マイクロソフトのモダンミーティングとその先の実装(1/5)

このブログシリーズの最初の部分では、SeaMeet、私たちの共同モダンミーティングソリューションを作成するためのSeasalt.aiの旅を追ってください。

SeaMeet

このブログシリーズを通して、Seasalt.aiが包括的なモダンミーティング体験を創造する旅を追ってください。その謙虚な始まりから、さまざまなハードウェアやモデルでサービスを最適化し、最先端のNLPシステムを統合し、最終的に私たちの共同モダンミーティングソリューションであるSeaMeetの完全な実現に至るまで。

モダンミーティングの未来

MS Build 2019からのマイクロソフトの音声テキスト変換サービスのデモ

Microsoft Build 2019で、マイクロソフトはクラウドコンピューティングソリューションの最新版であるAzure Speech Services、より具体的には会議文字起こしアプリケーションを発表し、聴衆を沸かせました。その導入後、この会話文字起こし機能はすぐに誰もが注目するものとなり、トップ技術ブログや定期刊行物で言及されました。2019年に下のビデオで示されたデモンストレーションは、Azure Speech Servicesの多くの力を示しました。私たちは、それが世界的なパンデミックおよびパンデミック後の状況でモダンミーティングがどのように開催されるかの前触れになるとはほとんど知りませんでした。物理的なものから仮想的なもの、そしてハイブリッドなものへと移行するのです。

MS Build 2019でのMicrosoft Azureの音声テキスト変換と話者識別のライブデモ

会話文字起こしプラットフォームとして宣伝された、Azureの会議文字起こしサービスのマイクロソフトのショーケースは、「モダンミーティングの未来」として適切に紹介され、すべての重要な会議を迅速かつきれいにキャプチャする方法を探しているすべての企業に適した、堅牢で効率的な音声テキスト変換(STT)プラットフォームとして新しいサービスを確立しました。

このサービスを会議文字起こしの頂点たらしめているものは何でしょうか?第一に、リアルタイムのパフォーマンスです。テクノロジーがますます高速化するにつれて、忍耐力はますます薄れ、数秒の遅延でさえ平均的なユーザーをいらいらさせるのに十分すぎるほどです。しかし、マイクロソフトは、彼らの会話文字起こし機能が十分に高速であり、一部のクローズドキャプションサービスよりも高速に正確な文字起こしを提供し、テキストだけで同時会話を完全に追跡できることを証明しました。

次に、マイクロソフトは話者識別機能も披露しました。整理されていない会話テキストの混乱で終わるのはイライラして役に立たないものですが、話者識別は各発話を話者で自動的にラベル付けし、消費しやすい形式を作成します。

Microsoft Azureの音声テキスト変換と話者識別のユーザーインターフェイス

日々、コンピューティングハードウェアは日ごとに強力になり、企業は最新のCPUとGPUから最後のコアを絞り出そうとしています。多くの場合、古いテクノロジーは時代遅れになり、顧客は社会で関連性を保つためだけに数年ごとにアップグレードを余儀なくされます。「モダンミーティングの未来」では、マイクロソフトはAzure Speech Serviceをコンシューマーグレードのハードウェアで実行するように最適化し、重い計算は自社側で維持することで、このサービスの恩恵を受けることができるすでに広大な人口をさらに拡大しました。

Azureの会議文字起こしサービスは、私たちがビジネスを行う方法を最適化することを目指しています。すべての組織が、このような製品をワークフローに組み込むとうまくいくでしょう。平均的な日には、情報は常に流れており、リマインダー、タスク、更新など、すべてのビットが最後のビットと同じくらい重要です。あまりにも頻繁に物事が隙間に紛れ込んでしまい、それは時間の無駄と利益の無駄を意味します。マイクロソフトのソリューションが提供するのは、何を言ったか、誰が言ったかを正確に描写する、完全に自動生成された記録です。そのため、情報が失われたり、特定のセクションを求めて長い音声記録を盲目的に探したりする時代は終わりました。今、必要なすべての情報が、必要なだけ参照できるようにきれいにレイアウトされています。このテクノロジーはこれまで以上に重要です。2020年が私たちに何かを教えてくれたとすれば、それは特に職場での柔軟性の必要性です。人々は病気になり、予期せぬ出来事が発生するため、従業員がすべての議論に出席することを期待するのは事実上不可能です。モダンミーティングにより、私たちはこれらの予期せぬ展開に対応できるようになる一歩手前にいます。基本的には、実際にそこにいなくてもそこにいる能力を誰もが持てるようにするのです。

モダンミーティングの実装

2020年半ば、シンガポールの政府クライアントから提案依頼書を受け取りました。はい、まだパンデミックでした。しかし、シンガポールはそれを制御していたため、政府の会議はまだ物理的な会議室で行われていました。彼らは、最大12人の異なる話者からの音声を文字起こしできる最新のソリューションを望んでいました。さらに、話者識別はここで重要な役割を果たします。

話者識別に関して、Azureが提供するものとクライアントが必要とするものとの間の大きな違いの1つは、音声の「登録」です。Azureでは、システムに音声プリントを登録するために、すべての話者から事前に録音された音声が必要です。しかし、おそらく非常に重要な政府高官に、録音されるためにマイクの前に座るように頼むことは不可能です。私たちは、最初に教師なし話者クラスタリング(話者ダイアライゼーションとも呼ばれます)を行うことで、プロセスにいくつかの適応を加えました。アイデアは、話者が私たちのシステムで一度話した場合、次に話すときに彼らを認識するというものです。

Microsoft Azureの音声テキスト変換と音声識別サービスのフロー図

Azure Conversation Transcriptionからのモダンミーティングのアーキテクチャ。私たちの適応では、会議前の「ユーザー登録」の要件を会議後に緩和しました。

その後、プロジェクト全体のためにすぐに武器を組み立てました。最初のステップは、認識モデルに非常にクリアな音声データを提供する高品質のマイクアレイを調達することでした。私たちはすぐにAzure Kinectに魅了されました。スタイリッシュな7マイクアレイがフルアルミニウムケーシングに収められており、高解像度カメラと深度センサーの追加ボーナスが付いています。

400ドルのAzure Kinect DKはモダンミーティングに使用されます

400ドルのAzure Kinect DKはモダンミーティングに使用されます

見た目だけでも、これはどんな会議室にも合う本当に洗練されたデバイスですが、さらに重要なことに、強力なマイクアレイは私たちが求めていた品質を約束しました。円形配置により、7つのマイクは、音源定位やビームフォーミングなどの最先端の信号処理技術を使用する可能性を開きました。このマイクは、AzureのSpeech Servicesを利用したバックエンドとの完璧な組み合わせでもありました。これは、当社の製品に最高級の会議文字起こし機能となるために必要な力を与える、確立された音声テキスト変換プラットフォームです。

Azure Kinect DKには、音声を拾うための7マイクアレイが付属しています

Azure Kinect DKには、音声を拾うための7マイクアレイが付属しています

AzureはSeaMeetの最終カットにはなりませんでしたが、私たちのビジョンを実現するために必要なスタートを与えてくれました。最後に、これらすべてをユーザーインターフェイスで結び付けました。最初のイテレーションでは、プレーンでありながら完全に機能的な、汎用のJavaベースの設計で間に合わせました。Kinectデバイスは外部コードを実行できないため、これらすべてを追加の単一のWindowsラップトップで実行する必要がありました。最初は少し荒削りでしたが、完全に機能する会議文字起こし製品ができたことを誇りに思いました。

Microsoft Kinectマイクアレイを使用したSeasalt.aiのSeaMeetサービスの初期設定

Azure KinectとWindowsコンピューターを使用してモダンミーティングを実装し、リアルタイムの会議文字起こしと話者識別を表示するシンプルなJavaベースのUIを実行します。

モダンミーティングの展開

2021年5月、当社のエンジニアは、概念実証として最新のビジネスソリューションを展開するためにシンガポールに到着しました。他の2つの競合他社と対戦し、私たちはそれぞれ、会議の未来についてのビジョンを実証する任務を負いました。

過去10年間でワイヤレスが標準になったという事実にもかかわらず、競合他社は依然として有線ソリューションを選択していることがわかりました。写真からわかるように、12人の話者はそれぞれ個別のマイクに固定されていました。話者は、システムが自分の声を拾うために、近接通話設定でマイクに直接話す必要がありました。これは柔軟性を著しく妨げるだけでなく、このような設定は複雑なAV機器で複雑さを倍増させます。一方、当社のソリューションは、7マイクアレイと信号処理アルゴリズムのおかげで、遠距離場の機能によって完全に駆動されます。

ある程度、私たちのソリューションは「Alexa for Business」に非常によく似ていました。1つのデバイスが部屋全体をカバーし、必要なのは電源ケーブルだけです。競合他社のソリューションと比較して、当社のソリューションは、現代のビジネスのニーズを真に理解しているという意味で何世代も先を行っていますが、彼らはまだ時代遅れの有線世代に完全に縛られています。

PoC会議室のセットアップ。2時間の政府会議をシミュレートする12人の話者がいました。

現場のすべての機器のクローズアップショット。

チームは大きな違いを見て興奮しました。数時間の調整で、最終的なPoCは非常にスムーズに進みました。チームはまた、PoCの後、Covid-19が厳しく封じ込められていた国であるシンガポールでのツアーを楽しみ、生活とビジネスは通常通りに行われました。

モダンミーティングを超えて

シンガポール滞在中、私たちの考えは成功したPoCを超えました。他の競合ソリューションと比較して、私たちのソリューションは10倍優れていました。しかし、どうすれば自分たちよりも10倍優れたことができるでしょうか?このシリーズの次のブログへの私たちのステップに従ってください。

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.