در طول این مجموعه وبلاگ، سفر Seasalt.ai را برای ایجاد یک تجربه جلسات مدرن جامع دنبال کنید، از آغاز فروتنانه آن، تا بهینه سازی خدمات ما بر روی سخت افزارها و مدل های مختلف، تا ادغام سیستم های پیشرفته NLP و در نهایت پایان دادن به تحقق کامل SeaMeet، راه حل های جلسات مدرن مشترک ما.
آینده جلسات مدرن
در Microsoft Build 2019، مایکروسافت با رونمایی از جدیدترین راه حل های محاسبات ابری خود، تماشاگران را به وجد آورد: خدمات گفتاری Azure، به طور خاص برنامه رونویسی جلسات آنها. پس از معرفی، این رونویس مکالمه بلافاصله در رادار همه قرار گرفت و در میان وبلاگ ها و نشریات برتر فناوری ذکر شد. این نمایش که در ویدیوی زیر در سال 2019 نشان داده شده است، قدرت زیادی از خدمات گفتاری Azure را به نمایش گذاشت. ما نمی دانستیم که این به زودی مقدمه ای برای چگونگی برگزاری جلسات مدرن در یک بیماری همه گیر جهانی و پس از همه گیری خواهد بود: از فیزیکی به مجازی و ترکیبی.

به عنوان یک پلت فرم رونویسی مکالمه تبلیغ می شود، ویترین مایکروسافت برای سرویس رونویسی جلسات Azure، که به درستی به عنوان “آینده جلسات مدرن” معرفی شده است، سرویس جدید خود را به عنوان یک پلت فرم قوی و کارآمد گفتار به متن (STT) مناسب برای همه مشاغلی که به دنبال راهی برای ضبط سریع و منظم تمام کنفرانس های مهم خود هستند، تثبیت کرد.
چه چیزی این سرویس را به اوج رونویسی جلسات تبدیل می کند؟ اول، عملکرد در زمان واقعی. با سریعتر شدن فناوری، صبر هر روز کمتر می شود، جایی که حتی چند ثانیه تأخیر برای آزار کاربر متوسط بیش از حد کافی است. با این حال، مایکروسافت ثابت کرد که رونویس مکالمه آنها بیش از حد سریع است و رونویسی های دقیقی را سریعتر از برخی خدمات زیرنویس بسته ارائه می دهد، که این امر پیگیری یک مکالمه همزمان را فقط با متن کاملاً امکان پذیر می کند.
بعد، مایکروسافت همچنین قابلیت های شناسایی گوینده خود را به نمایش گذاشت. پایان دادن به یک آشفتگی از متن مکالمه سازمان نیافته ناامید کننده و بی فایده است، اما شناسایی گوینده به طور خودکار هر گفته را با گوینده برچسب گذاری می کند و یک قالب قابل مصرف آسان ایجاد می کند.
هر روز، سخت افزار محاسباتی روز به روز قدرتمندتر می شود و شرکت ها به دنبال این هستند که آخرین هسته را از جدیدترین پردازنده ها و پردازنده های گرافیکی استخراج کنند. اغلب فناوری های قدیمی منسوخ می شوند و مشتریان مجبور می شوند هر چند سال یک بار برای حفظ ارتباط در جامعه ارتقا دهند. در “آینده جلسات مدرن”، مایکروسافت سرویس گفتاری Azure را برای اجرا بر روی سخت افزار درجه مصرف کننده بهینه کرد و در عین حال محاسبات سنگین را در سمت خود نگه داشت و جمعیت گسترده ای را که می توانند از این سرویس بهره مند شوند، بیشتر گسترش داد.
سرویس رونویسی جلسات Azure برای بهینه سازی نحوه انجام تجارت ما ایستاده است. هر سازمانی به خوبی می تواند محصولی مانند این را در گردش کار خود بگنجاند. در یک روز معمولی، اطلاعات دائماً در جریان است و هر بیت به اندازه آخرین بیت مهم است، خواه یادآوری، وظایف یا به روزرسانی باشد. خیلی اوقات چیزها در شکاف ها گم می شوند و این به معنای اتلاف وقت و سود از دست رفته است. آنچه راه حل مایکروسافت ارائه می دهد، یک رکورد کامل و تولید شده به طور خودکار است که دقیقاً آنچه گفته شده و چه کسی آن را گفته است را مشخص می کند، بنابراین روزهای اطلاعات از دست رفته و شکار کورکورانه در ضبط های صوتی طولانی برای یک بخش خاص گذشته است. اکنون، تمام اطلاعاتی که نیاز دارید به طور منظم برای شما چیده شده است تا هر چند وقت یکبار که نیاز دارید به آنها مراجعه کنید. این فناوری بیش از هر زمان دیگری مهم است. اگر سال 2020 چیزی به ما آموخت، آن نیاز به انعطاف پذیری، به ویژه در محل کار است. مردم بیمار می شوند و رویدادهای پیش بینی نشده ای رخ می دهد، بنابراین تقریباً غیرممکن است که از کارمندان انتظار داشته باشیم در هر بحثی شرکت کنند. با جلسات مدرن، ما یک قدم به توانایی انطباق با این تحولات غیرمنتظره نزدیکتر شده ایم و اساساً به همه این امکان را می دهیم که بدون حضور فیزیکی در آنجا حضور داشته باشند.
پیاده سازی جلسات مدرن
در اواسط سال 2020، ما یک درخواست برای پیشنهاد از یک مشتری دولتی در سنگاپور دریافت کردیم. بله، هنوز همه گیری بود. اما سنگاپور آن را تحت کنترل داشت، بنابراین جلسات دولتی هنوز در اتاق های کنفرانس فیزیکی برگزار می شد. آنها یک راه حل مدرن می خواستند که بتواند گفتار حداکثر 12 گوینده مختلف را رونویسی کند. علاوه بر این، شناسایی گوینده در اینجا نقش مهمی ایفا می کند.
در مورد شناسایی گوینده، یک تفاوت قابل توجه بین آنچه Azure ارائه می دهد و آنچه مشتری نیاز دارد، “ثبت نام” صوتی است: Azure برای ثبت اثر انگشت صوتی خود در سیستم، به مقداری صدای از پیش ضبط شده از همه گویندگان نیاز دارد. با این حال، غیرممکن است که از برخی مقامات دولتی که احتمالاً بسیار مهم هستند بخواهیم جلوی میکروفون بنشینند تا ضبط شوند. ما با انجام خوشه بندی گوینده بدون نظارت ابتدا (که به آن diarization گوینده نیز گفته می شود) برخی از سازگاری ها را با این فرآیند انجام دادیم. ایده این است که اگر یک گوینده یک بار در سیستم ما صحبت کرده باشد، دفعه بعد که صحبت می کند او را می شناسیم.
معماری جلسات مدرن از رونویسی مکالمه Azure. در اقتباس ما، ما الزام “ثبت نام کاربر” را قبل از جلسه به بعد از جلسه کاهش دادیم.
سپس ما به سرعت زرادخانه خود را برای کل پروژه جمع آوری کردیم. اولین قدم تهیه یک آرایه میکروفون با کیفیت بالا بود که داده های صوتی شفاف را به مدل های تشخیص ما ارائه دهد. ما بلافاصله مجذوب Azure Kinect شدیم: یک آرایه شیک 7 میکروفونی که در یک محفظه آلومینیومی کامل با امتیاز اضافی یک دوربین با کیفیت بالا و سنسورهای عمق قرار گرفته است.

Azure Kinect DK 400 دلاری برای جلسات مدرن استفاده می شود
فقط با نگاه کردن، این یک دستگاه واقعاً پیچیده است که هر اتاق کنفرانسی را تکمیل می کند، اما مهمتر از آن، آرایه میکروفون قدرتمند کیفیت مورد نظر ما را نوید می داد. با آرایش دایره ای، هفت میکروفون امکان استفاده از تکنیک های پیشرفته پردازش سیگنال مانند محلی سازی منبع و شکل دهی پرتو را باز کردند. این میکروفون همچنین جفت مناسبی با باطن ما بود که از خدمات گفتاری Azure استفاده می کرد، یک پلت فرم گفتار به متن تثبیت شده که به محصول ما قدرت لازم را برای تبدیل شدن به یک رونویس جلسه درجه یک می داد.

Azure Kinect DK با یک آرایه 7 میکروفونی برای دریافت صداها ارائه می شود
در حالی که Azure برش نهایی SeaMeet را انجام نداد، اما شروعی را که برای تحقق دیدگاه خود نیاز داشتیم به ما داد. سرانجام ما همه اینها را با یک رابط کاربری گره زدیم. در تکرار اول، ما با یک طراحی عمومی مبتنی بر جاوا کار کردیم که اگرچه ساده بود، اما کاملاً کاربردی بود. از آنجا که دستگاه Kinect نمی تواند کد خارجی را اجرا کند، همه اینها باید روی یک لپ تاپ ویندوز اضافی اجرا می شد. اگرچه در ابتدا کمی خشن بود، اما ما با افتخار می گفتیم که یک محصول رونویسی جلسه کاملاً کاربردی داریم.

پیاده سازی جلسات مدرن با Azure Kinect و یک کامپیوتر ویندوز، که یک رابط کاربری ساده مبتنی بر جاوا را برای نمایش رونویسی جلسه در زمان واقعی و شناسایی گوینده اجرا می کند.
استقرار جلسات مدرن
در ماه مه 2021، مهندسان ما برای استقرار راه حل تجاری مدرن ما به عنوان اثبات مفهوم وارد سنگاپور شدند. در مقابل دو شرکت رقیب دیگر، هر یک از ما موظف شدیم دیدگاه خود را در مورد آینده جلسات نشان دهیم.
علیرغم این واقعیت که بی سیم در دهه گذشته به یک هنجار تبدیل شده بود، ما دریافتیم که رقبای ما هنوز یک راه حل سیمی را انتخاب می کنند. همانطور که از تصویر می بینید، هر یک از 12 گوینده به یک میکروفون جداگانه متصل بودند. یک گوینده باید مستقیماً در میکروفون در یک محیط گفتگوی نزدیک صحبت می کرد تا سیستم صدای او را دریافت کند. این نه تنها انعطاف پذیری را به شدت مختل می کند، بلکه چنین تنظیمی پیچیدگی را با تجهیزات AV پیچیده چند برابر می کند. راه حل ما، از سوی دیگر، به لطف آرایه 7 میکروفونی و الگوریتم های پردازش سیگنال، کاملاً توسط قابلیت های میدان دور تأمین می شود.
تا حدی، راه حل ما بسیار شبیه به “الکسا برای تجارت” بود: یک دستگاه کل اتاق را پوشش می دهد و فقط یک کابل برق مورد نیاز است. در مقایسه با راه حل رقبای ما، راه حل ما از این نظر نسل ها جلوتر است که ما واقعاً نیازهای مشاغل مدرن را درک می کنیم در حالی که آنها هنوز کاملاً به نسل سیمی قدیمی وابسته هستند.

راه اندازی اتاق کنفرانس PoC. 12 گوینده در حال شبیه سازی یک جلسه 2 ساعته دولتی بودند.

یک عکس نزدیکتر از تمام تجهیزات در محل.
تیم از دیدن تفاوت بزرگ هیجان زده شد. با چند ساعت تنظیم، PoC نهایی بسیار روان پیش رفت. این تیم همچنین پس از PoC از یک تور در سنگاپور لذت برد، در کشوری که Covid-19 به شدت مهار شده بود تا زندگی و تجارت طبق معمول پیش برود.
فراتر از جلسات مدرن
در طول مدت حضور ما در سنگاپور، افکار ما فراتر از یک PoC موفق بود: در مقایسه با سایر راه حل های رقیب، راه حل ما 10 برابر بهتر بود. اما چگونه می توانستیم 10 برابر بهتر از خودمان عمل کنیم؟ لطفاً مراحل ما را به وبلاگ بعدی در این مجموعه دنبال کنید.