На протяжении всей этой серии блогов следите за путешествием Seasalt.ai по созданию всестороннего опыта современных встреч, начиная с его скромных начинаний, до оптимизации нашего сервиса на различном оборудовании и моделях, до интеграции самых современных систем НЛП и, наконец, до полной реализации SeaMeet, наших совместных современных решений для встреч.
За пределами современных встреч
Здесь, в Seasalt.ai, мы восхищались текущими возможностями, продемонстрированными на демо-версии Build 2019 этого продукта, но нас больше интересует, чем может стать этот продукт, как вывести транскрипцию разговоров за рамки простого подражания. Но прежде чем вы сможете победить конкурентов, вам нужно сначала досконально понять игру, в которую вы играете. И так родился SeaMeet. В самом начале мы рассматривали Azure как модель для понимания основ того, что делает надежный сервис транскрипции, и использовали службы речи Azure в качестве нашего бэкэнда для использования этой устоявшейся технологии.
Как и с любым молодым продуктом, проблемы возникли сразу. Стремясь быстро запустить наш продукт, мы решили использовать микрофонный массив Microsoft Kinect DK, который рекламировался как аппаратный аналог речевых служб и предположительно был настроен для получения оптимальной производительности от моделей автоматического распознавания речи Azure. Хотя это, несомненно, хорошо сконструированное и хорошо спроектированное устройство, оно поставляется с полностью алюминиевым корпусом, широкоугольным объективом, камерой глубины и 7-микрофонным массивом. Оно также имеет высокую цену, чуть менее 400 долларов. Начиная с апреля 2021 года, у Kinect DK была серьезная проблема с нехваткой запасов. По состоянию на сентябрь 2021 года он все еще отсутствует на складе. Это еще раз подтвердило, что Kinect не является подходящим устройством для нас.

Azure Kinect DK отсутствовал на складе с 2021/4 года на момент публикации этой статьи (2021/9)
Микрофонный массив является первым компонентом в конвейере транскрипции разговоров. Как поставщики услуг транскрипции, мы должны быть в состоянии устойчиво и надежно поставлять наше оборудование.
Наш путь к поиску идеального микрофонного массива привел нас к двум вариантам: Respeaker Array v2.0 и Respeaker Core v2.0. Оба эти устройства представляют собой круговые массивы, соответственно с четырьмя и шестью микрофонами, что является критически важной особенностью для выполнения 360-градусной локализации источника и позволяет нам легко интегрировать эти новые устройства в нашу существующую систему. Истинная красота этих устройств заключается в том, что они поставляются со встроенными алгоритмами обработки сигналов, включая шумоподавление, эхоподавление и формирование луча, которые идеально настроены под размеры микрофона.

Respeaker Array v2.0 демонстрирует VAD и локализацию источника

Демонстрация живой встречи с Respeaker Array v2.0
Для четырехмикрофонного массива Array v2.0, который полностью питался от порта USB, это означало, что компьютер пользователя должен был сосредоточиться только на потоковой передаче аудио на сервер. Это перекладывает обработку сигнала на микрофонный массив.

Respeaker Core v2.0 на фото с демонстрацией
Еще более убедительным является Core v2.0, оснащенный процессором ARM и 1 ГБ ОЗУ. Способный запускать полноценный дистрибутив Linux и обладающий более чем достаточной вычислительной мощностью для выполнения нашего клиентского скрипта, мы не только разгрузили обработку с компьютера пользователя с помощью этого устройства, но и полностью устранили необходимость подключения компьютера к микрофону. Поскольку микрофонные массивы теперь выполняют тяжелую обработку, мы снизили требования к оборудованию, необходимому для работы нашего продукта, и, таким образом, эффективно увеличили нашу аудиторию, которая может извлечь выгоду из SeaMeet.

Пример Core v2.0 автономного размещения микрофона
Еще одной уникальной характеристикой этих микрофонных массивов является отсутствие корпуса. Оба поставляются в виде голых печатных плат с открытыми микрофонами, чипами и портами. Хотя многие сочтут это неудобством, мы видим в этом возможность создать поистине уникальное устройство, которое безошибочно принадлежит Seasalt.
С помощью этих устройств мы завершаем работу над нашим прототипом SeaMeet, нашей совершенно новой, современной службы транскрипции встреч. И этим мы завершаем нашу пятичастную серию, начиная с того момента, когда SeaMeet был всего лишь семенем, вдохновленным демонстрацией Microsoft, и заканчивая полностью независимым продуктом. Находясь еще на ранних стадиях, SeaMeet предстоит увлекательное путешествие, поскольку мы продолжаем совершенствовать нашу систему диаризации, понимание встреч и языковые модели. Команда Seasalt.ai стремится продолжать революционизировать то, как мир ведет бизнес.