W całej tej serii blogów, śledź podróż Seasalt.ai do stworzenia wszechstronnego doświadczenia w zakresie nowoczesnych spotkań, począwszy od skromnych początków, poprzez optymalizację naszych usług na różnym sprzęcie i modelach, aż po integrację najnowocześniejszych systemów NLP i wreszcie pełną realizację SeaMeet, naszych wspólnych, nowoczesnych rozwiązań do spotkań.
Poza nowoczesnymi spotkaniami
W Seasalt.ai podziwialiśmy obecne możliwości pokazane na demo Build 2019 tego produktu, ale bardziej interesuje nas to, czym ten produkt może się stać, jak przenieść transkrypcję rozmów poza naśladownictwo. Ale zanim będziesz mógł pokonać konkurencję, musisz najpierw dogłębnie zrozumieć grę, w którą grasz. I tak narodził się SeaMeet. W początkowej fazie patrzyliśmy na Azure jako model do zrozumienia podstaw tego, co tworzy solidną usługę transkrypcji i wykorzystaliśmy usługi mowy Azure jako nasz backend, aby wykorzystać tę ugruntowaną technologię.
Podobnie jak w przypadku każdego młodego produktu, natychmiast pojawiły się wyzwania. Chcąc szybko wprowadzić nasz produkt na rynek, zdecydowaliśmy się na użycie zestawu mikrofonów Microsoft Kinect DK, promowanego jako sprzętowy odpowiednik usług mowy i rzekomo dostrojonego do uzyskania optymalnej wydajności z automatycznych modeli rozpoznawania mowy Azure. Chociaż jest to niezaprzeczalnie dobrze skonstruowane i dobrze zaprojektowane urządzenie, jest ono wyposażone w pełną aluminiową obudowę, szerokokątny obiektyw, kamerę głębi i 7-mikrofonowy zestaw. Ma również wysoką cenę, tuż poniżej 400 dolarów. Od kwietnia 2021 roku Kinect DK miał poważny problem z niedoborem zapasów. Nadal jest niedostępny w momencie pisania tego tekstu we wrześniu 2021 roku. To dodatkowo potwierdziło, że Kinect nie jest dla nas odpowiednim urządzeniem.

Azure Kinect DK był niedostępny od 2021/4 w momencie publikacji tego artykułu (2021/9)
Zestaw mikrofonów jest pierwszym elementem w potoku transkrypcji rozmów. Jako dostawcy usług transkrypcji, musimy być w stanie w sposób zrównoważony i niezawodny pozyskiwać nasz sprzęt.
Nasza podróż w poszukiwaniu idealnego zestawu mikrofonów doprowadziła nas do dwóch opcji: Respeaker Array v2.0 i Respeaker Core v2.0. Oba te urządzenia to zestawy okrągłe, odpowiednio z czterema i sześcioma mikrofonami, co jest kluczową cechą umożliwiającą lokalizację źródła w 360 stopniach i pozwalającą nam łatwo zintegrować te nowe urządzenia z naszym istniejącym systemem. Prawdziwe piękno tych urządzeń polega na tym, że są one wyposażone w wbudowane algorytmy przetwarzania sygnału, w tym redukcję szumów, eliminację echa i kształtowanie wiązki, które są idealnie dostrojone do wymiarów mikrofonu.

Respeaker Array v2.0 demonstrujący VAD i lokalizację źródła

Demonstracja spotkania na żywo z Respeaker Array v2.0
W przypadku czteromikrofonowego Array v2.0, które było w pełni zasilane przez port USB, oznaczało to, że komputer użytkownika musiał skupić się jedynie na przesyłaniu dźwięku do serwera. To odciąża przetwarzanie sygnału na zestaw mikrofonów.

Respeaker Core v2.0 na zdjęciu z demo
Jeszcze bardziej przekonujący jest Core v2.0 wyposażony w procesor ARM i 1 GB pamięci RAM. Zdolny do uruchomienia pełnej dystrybucji Linuksa i posiadający więcej niż wystarczającą moc obliczeniową do uruchomienia naszego skryptu klienta, nie tylko odciążyliśmy przetwarzanie z komputera użytkownika za pomocą tego urządzenia, ale całkowicie wyeliminowaliśmy potrzebę podłączania komputera do mikrofonu. Ponieważ zestawy mikrofonów wykonują teraz ciężkie przetwarzanie, zmniejszyliśmy wymagania sprzętowe potrzebne do uruchomienia naszego produktu, a tym samym skutecznie zwiększyliśmy naszą publiczność, która może skorzystać z SeaMeet.

Przykład Core v2.0 samodzielnego umieszczenia mikrofonu
Kolejną unikalną cechą tych zestawów mikrofonów jest brak obudowy. Oba są dostarczane jako gołe płytki PCB z odsłoniętymi mikrofonami, chipami i portami. Chociaż wielu uzna to za niedogodność, my widzimy w tym okazję do stworzenia naprawdę jedynego w swoim rodzaju urządzenia, które jest niezaprzeczalnie Seasalt.
Dzięki tym urządzeniom, zamykamy nasz prototyp SeaMeet, naszej nowej, najnowocześniejszej usługi transkrypcji spotkań. I tym samym kończymy naszą pięcioczęściową serię, zaczynając od momentu, gdy SeaMeet było niczym więcej niż ziarnem zainspirowanym demonstracją Microsoftu, a kończąc na w pełni niezależnym produkcie. Nadal na wczesnym etapie, SeaMeet ma przed sobą ekscytującą podróż, ponieważ nadal udoskonalamy nasz system diaryzacji, sens spotkania i modele językowe. Zespół Seasalt.ai chętnie będzie nadal rewolucjonizował sposób prowadzenia biznesu na świecie.