در طول این مجموعه وبلاگ، سفر Seasalt.ai را برای ایجاد یک تجربه جلسات مدرن کامل، از آغاز فروتنانه آن، تا بهینه سازی خدمات ما بر روی سخت افزارها و مدل های مختلف، تا ادغام سیستم های پیشرفته NLP و در نهایت پایان دادن به تحقق کامل SeaMeet، راه حل های جلسات مدرن مشترک ما، دنبال کنید.
فراتر از جلسات مدرن
ما در Seasalt.ai، تواناییهای فعلی نشان داده شده در دمو Build 2019 این محصول را تحسین کردیم، اما بیشتر علاقهمندیم که ببینیم این محصول به چه چیزی میتواند تبدیل شود، چگونه رونویسی مکالمه را فراتر از تقلید ببریم. اما قبل از اینکه بتوانید رقابت را شکست دهید، ابتدا باید بازیای را که انجام میدهید به طور کامل درک کنید. و اینگونه بود که SeaMeet متولد شد. در ابتدای کار، ما به Azure به عنوان مدلی برای درک مبانی یک سرویس رونویسی قوی نگاه کردیم و از خدمات گفتاری Azure به عنوان بکاند خود برای استفاده از این فناوری تثبیت شده استفاده کردیم.
درست مانند هر محصول جوانی، چالشها بلافاصله پدیدار شدند. مشتاقانه برای راهاندازی محصولمان، ما تصمیم گرفتیم از آرایه میکروفون Microsoft Kinect DK استفاده کنیم که به عنوان همتای سختافزاری خدمات گفتاری تبلیغ میشد و ظاهراً برای دستیابی به بهینهترین عملکرد از مدلهای تشخیص گفتار خودکار Azure تنظیم شده بود. اگرچه این دستگاه بدون شک به خوبی ساخته شده و طراحی شده است، اما دارای یک محفظه تمام آلومینیومی، یک لنز با زاویه دید عریض، یک دوربین عمق و یک آرایه 7 میکروفون است. همچنین قیمت بالایی در حدود 400 دلار دارد. از آوریل 2021، Kinect DK با مشکل جدی کمبود موجودی مواجه بود. تا زمان نگارش این مقاله در سپتامبر 2021، هنوز هم موجود نیست. این امر بیشتر تأیید کرد که Kinect دستگاه مناسبی برای ما نیست.

Azure Kinect DK از 2021/4 تا زمان انتشار این مقاله (2021/9) ناموجود بود
آرایه میکروفون اولین جزء در خط لوله رونویسی مکالمه است. به عنوان ارائه دهندگان خدمات رونویسی، ما باید بتوانیم سخت افزار خود را به طور پایدار و قابل اعتماد تامین کنیم.
سفر ما برای یافتن آرایه میکروفون عالی ما را به دو گزینه رساند: Respeaker Array v2.0 و Respeaker Core v2.0. هر دو این دستگاه ها آرایه های دایره ای هستند، به ترتیب چهار و شش میکروفون، که یک ویژگی حیاتی برای انجام محلی سازی منبع 360 درجه و امکان ادغام آسان این دستگاه های جدید در سیستم موجود ما است. زیبایی واقعی این دستگاه ها در این است که آنها با الگوریتم های پردازش سیگنال داخلی از جمله حذف نویز، حذف اکو و شکل دهی پرتو ارائه می شوند که کاملاً با ابعاد میکروفون تنظیم شده اند.

Respeaker Array v2.0 در حال نمایش VAD و محلی سازی منبع

دموی زنده جلسه با Respeaker Array v2.0
برای آرایه چهار میکروفون Array v2.0، که به طور کامل توسط پورت USB تغذیه میشد، این بدان معنا بود که رایانه کاربر فقط باید روی پخش صدا به سرور تمرکز کند. این کار پردازش سیگنال را به آرایه میکروفون منتقل میکند.

Respeaker Core v2.0 با دمو نشان داده شده است
حتی قانعکنندهتر، Core v2.0 مجهز به پردازنده ARM و 1 گیگابایت رم است. این دستگاه قادر به اجرای کامل توزیع لینوکس و دارای قدرت پردازشی کافی برای اجرای اسکریپت مشتری ما است. ما نه تنها پردازش را از رایانه کاربر با این دستگاه منتقل کردهایم، بلکه نیاز به اتصال رایانه به میکروفون را به طور کامل از بین بردهایم. از آنجایی که آرایههای میکروفون اکنون پردازش سنگین را انجام میدهند، ما الزامات سختافزاری مورد نیاز برای اجرای محصول خود را کاهش دادهایم و بنابراین به طور موثری مخاطبان خود را که میتوانند از SeaMeet بهرهمند شوند، افزایش دادهایم.

مثال Core v2.0 از قرارگیری میکروفون مستقل
یکی دیگر از ویژگیهای منحصر به فرد این آرایههای میکروفون، عدم وجود محفظه برای آنها است. هر دو به صورت PCBهای بدون پوشش با میکروفونها، تراشهها و پورتهای کاملاً در معرض دید عرضه میشوند. در حالی که بسیاری این را یک ناراحتی میدانند، ما این را فرصتی برای ایجاد یک دستگاه واقعاً بینظیر میبینیم که به وضوح متعلق به Seasalt است.
با این دستگاهها، ما نمونه اولیه SeaMeet، سرویس رونویسی جلسات کاملاً جدید و پیشرفته خود را به پایان میرسانیم. و با این کار، ما سری پنج قسمتی خود را به پایان میرسانیم، که از زمانی که SeaMeet چیزی جز یک بذر الهام گرفته از یک دموی مایکروسافت نبود، شروع شد و با یک محصول کاملاً مستقل به پایان رسید. SeaMeet هنوز در مراحل اولیه خود است و سفر هیجانانگیزی در پیش دارد، زیرا ما به بهبود سیستم دیاریزاسیون، حس جلسه و مدلهای زبان خود ادامه میدهیم. تیم Seasalt.ai مشتاق است که به انقلاب در نحوه انجام تجارت در جهان ادامه دهد.