Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
От демонстрации к успеху: внедрение современных совещаний Microsoft и не только (1/5)

От демонстрации к успеху: внедрение современных совещаний Microsoft и не только (1/5)

В первой части этой серии блогов проследите за путем Seasalt.ai к созданию SeaMeet, наших совместных решений для современных совещаний.

SeaMeet

На протяжении всей этой серии блогов следите за путем Seasalt.ai к созданию всестороннего опыта современных совещаний, начиная с его скромных начинаний, до оптимизации нашего сервиса на различном оборудовании и моделях, до интеграции самых современных систем НЛП и, наконец, до полной реализации SeaMeet, наших совместных решений для современных совещаний.

Будущее современных совещаний

Демонстрация службы преобразования речи в текст от Microsoft с MS Build 2019

На Microsoft Build 2019 Microsoft взбудоражила аудиторию, представив новейшие разработки в своих облачных решениях: службы Azure Speech, а точнее, их приложение для транскрипции совещаний. После своего появления этот транскрибатор разговоров сразу же попал в поле зрения всех и получил упоминания в ведущих технических блогах и периодических изданиях. Демонстрация, показанная в видео ниже в 2019 году, продемонстрировала большую мощь служб Azure Speech. Мы и не подозревали, что это быстро стало прелюдией к тому, как будут проводиться современные совещания в условиях глобальной пандемии и после нее: переход от физического к виртуальному и гибридному формату.

Живая демонстрация службы преобразования речи в текст и идентификации говорящего Microsoft Azure на MS Build 2019

Рекламируемый как платформа для транскрипции разговоров, демонстрационный показ Microsoft службы транскрипции совещаний Azure, метко названный «Будущее современных совещаний», зарекомендовал их новую службу как надежную и эффективную платформу преобразования речи в текст (STT), подходящую для всех предприятий, ищущих способ быстро и аккуратно записывать все свои важные конференции.

Что делает эту службу вершиной транскрипции совещаний? Во-первых, производительность в реальном времени. По мере того, как технологии становятся все быстрее и быстрее, терпение становится все тоньше, и даже задержка в несколько секунд более чем достаточна, чтобы разозлить среднего пользователя. Тем не менее, Microsoft доказала, что их транскрибатор разговоров более чем достаточно быстр, обеспечивая точные транскрипции быстрее, чем некоторые службы скрытых субтитров, что делает вполне возможным следить за одновременным разговором только с помощью текста.

Далее, Microsoft также продемонстрировала свои возможности по идентификации говорящего. Получить в итоге беспорядочный текст разговора — это неприятно и бесполезно, но идентификация говорящего автоматически помечает каждое высказывание говорящим, создавая легко усваиваемый формат.

Пользовательский интерфейс службы преобразования речи в текст и идентификации говорящего Microsoft Azure

С каждым днем вычислительное оборудование становится все мощнее, и компании стремятся выжать каждый последний ядро из новейших процессоров и графических процессоров. Часто старые технологии устаревают, и клиенты вынуждены обновляться каждые пару лет, чтобы оставаться актуальными в обществе. В «Будущем современных совещаний» Microsoft оптимизировала службу Azure Speech для работы на потребительском оборудовании, сохраняя при этом тяжелые вычисления на своей стороне, что еще больше расширило и без того обширное население, которое может извлечь выгоду из этой службы.

Служба транскрипции совещаний Azure призвана оптимизировать способ ведения нашего бизнеса. Каждая организация поступит правильно, внедрив подобный продукт в свой рабочий процесс. В обычный день информация постоянно течет, и каждая частичка так же важна, как и предыдущая, будь то напоминания, задачи или обновления. Слишком часто что-то теряется в трещинах, а это означает потраченное впустую время и упущенную выгоду. Решение Microsoft предлагает полную, автоматически сгенерированную запись, точно описывающую, что было сказано и кто это сказал, так что прошли те дни, когда информация терялась, и приходилось вслепую просматривать длинные аудиозаписи в поисках определенного раздела. Теперь вся необходимая вам информация аккуратно изложена для вас, чтобы вы могли обращаться к ней так часто, как вам нужно. Эта технология важна как никогда. Если 2020 год нас чему-то и научил, так это необходимости гибкости, особенно на рабочем месте. Люди болеют, и возникают непредвиденные события, поэтому практически невозможно ожидать, что сотрудники будут присутствовать на каждом обсуждении. С современными совещаниями мы на один шаг ближе к тому, чтобы иметь возможность приспособиться к этим неожиданным событиям, по сути, предоставив каждому возможность быть там, не находясь там на самом деле.

Внедрение современных совещаний

В середине 2020 года мы получили запрос на предложение от государственного клиента в Сингапуре. Да, это все еще была пандемия. Но Сингапур держал ее под контролем, поэтому правительственные совещания по-прежнему проходили в физических конференц-залах. Они хотели получить современное решение, которое могло бы транскрибировать речь до 12 разных говорящих. Кроме того, важную роль здесь должна была сыграть идентификация говорящего.

Что касается идентификации говорящего, то одно существенное различие между тем, что предлагает Azure, и тем, что нужно клиенту, заключается в «регистрации» голоса: Azure требует некоторой предварительно записанной речи от всех говорящих для регистрации их голосового отпечатка в системе. Однако невозможно попросить некоторых, предположительно, очень важных правительственных чиновников сесть перед микрофоном для записи. Мы внесли некоторые изменения в процесс, сначала выполнив неконтролируемую кластеризацию говорящих (также называемую диаризацией говорящих). Идея заключается в том, что если говорящий однажды говорил в нашей системе, мы узнаем его в следующий раз, когда он заговорит.

Диаграмма потоков служб преобразования речи в текст и идентификации речи Microsoft Azure

Архитектура современных совещаний из транскрипции разговоров Azure. В нашей адаптации мы ослабили требование «регистрации пользователя» до совещания до после совещания.

Затем мы быстро собрали наш арсенал для всего проекта. Первым шагом было найти высококачественный микрофонный массив, который бы передавал кристально чистые аудиоданные в наши модели распознавания. Нас сразу же привлек Azure Kinect: стильный 7-микрофонный массив в полностью алюминиевом корпусе с дополнительным бонусом в виде камеры высокой четкости и датчиков глубины.

Azure Kinect DK за 400 долларов используется для современных совещаний

Azure Kinect DK за 400 долларов используется для современных совещаний

Судя по внешнему виду, это действительно сложное устройство, которое дополнит любую конференц-зал, но, что более важно, мощный микрофонный массив обещал качество, которое мы искали. Благодаря круговому расположению семь микрофонов открыли возможность использования самых современных методов обработки сигналов, таких как локализация источника и формирование луча. Этот микрофон также идеально сочетался с нашим бэкэндом, который использовал службы Azure Speech, устоявшуюся платформу преобразования речи в текст, которая дала нашему продукту мощность, необходимую для того, чтобы стать первоклассным транскрибатором совещаний.

Azure Kinect DK поставляется с 7-микрофонным массивом для улавливания голосов

Azure Kinect DK поставляется с 7-микрофонным массивом для улавливания голосов

Хотя Azure не вошел в окончательную версию SeaMeet, он дал нам необходимый старт, чтобы мы могли реализовать наше видение. Наконец, мы связали все это с пользовательским интерфейсом. В нашей первой итерации мы обошлись универсальным дизайном на основе Java, который, хотя и был простым, был полностью функциональным. Поскольку устройство Kinect не может выполнять внешний код, все это должно было работать на дополнительном отдельном ноутбуке с Windows. Несмотря на то, что поначалу все было немного сыровато, мы с гордостью могли сказать, что у нас есть полностью функциональный продукт для транскрипции совещаний.

Первоначальная настройка службы SeaMeet от Seasalt.ai с использованием микрофонного массива Microsoft Kinect

Внедрение современных совещаний с помощью Azure Kinect и компьютера с Windows, на котором работает простой пользовательский интерфейс на основе Java для отображения транскрипции совещаний в реальном времени и идентификации говорящего.

Развертывание современных совещаний

В мае 2021 года наши инженеры прибыли в Сингапур, чтобы развернуть наше современное бизнес-решение в качестве доказательства концепции. Соревнуясь с двумя другими компаниями-конкурентами, перед каждым из нас была поставлена задача продемонстрировать наше видение будущего совещаний.

Несмотря на то, что за последнее десятилетие беспроводная связь стала нормой, мы обнаружили, что наши конкуренты по-прежнему выбирают проводное решение. Как вы можете видеть на картинке, каждый из 12 говорящих был привязан к отдельному микрофону. Говорящий должен был говорить прямо в микрофон в непосредственной близости, чтобы система уловила его голос. Это не только серьезно ограничивает гибкость, но и такая установка умножает сложность из-за запутанного аудио-видео оборудования. Наше решение, с другой стороны, полностью основано на возможностях дальнего поля, благодаря 7-микрофонному массиву и алгоритмам обработки сигналов.

В какой-то степени наше решение было очень похоже на «Alexa для бизнеса»: одно устройство охватывает всю комнату, и требуется только кабель питания. По сравнению с решением наших конкурентов, наше решение на несколько поколений опережает в том смысле, что мы действительно понимаем потребности современного бизнеса, в то время как они все еще полностью привязаны к устаревшему проводному поколению.

Настройка конференц-зала для доказательства концепции. Было 12 говорящих, имитирующих 2-часовое правительственное совещание.

Более крупный план всего оборудования на месте.

Команда была в восторге, увидев огромную разницу. После нескольких часов настройки окончательное доказательство концепции прошло очень гладко. Команда также насладилась экскурсией по Сингапуру после доказательства концепции, в стране, где Covid-19 был строго локализован, так что жизнь и бизнес шли своим чередом.

За рамками современных совещаний

Во время нашего пребывания в Сингапуре наши мысли вышли за рамки успешного доказательства концепции: по сравнению с другими конкурирующими решениями наше было в 10 раз лучше. Но как мы могли бы сделать в 10 раз лучше, чем мы сами? Пожалуйста, следуйте нашим шагам к следующему блогу в этой серии.

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.