در طول این مجموعه وبلاگ، سفر Seasalt.ai را برای ایجاد یک تجربه جامع جلسات مدرن دنبال کنید، از آغاز فروتنانه آن، تا بهینه سازی خدمات ما در سخت افزارها و مدل های مختلف، تا ادغام سیستم های NLP پیشرفته و در نهایت تحقق کامل SeaMeet، راه حل جلسات مدرن مشارکتی ما.
مشکلات جلسات مدرن
در طول توسعه ما، با موانع غیرقابل پیش بینی زیادی بدون دلایل یا راه حل های واضح روبرو شدیم.
شروع سریع
اولین مانع، به کار انداختن ابزارهای ما بود. Azure نمونه ای از جلسات مدرن را ارائه داد که ما از سازگاری آن با لینوکس خوشحال بودیم، اما متوجه شدیم که استفاده از SDK در ویندوز برای اجرای دمو بسیار آسان تر است - خب، بالاخره یک محصول مایکروسافت بود. پس از تلاش های ناموفق متعدد برای اجرای نمونه ارائه شده در لینوکس، در نهایت مجبور شدیم آن مسیر را رها کرده و به ویندوز روی بیاوریم. سرانجام ما یک رونویس کننده گفتار کاربردی داشتیم که شروعی فوق العاده بود.
تاخیر
یکی از مشکلاتی که ما تجربه کردیم، تأخیر تقریباً پنج ثانیه ای در دریافت نتایج تشخیص ما در رابط کاربری جلویی بود. در حالی که 5 ثانیه ممکن است نسبتاً سریع به نظر برسد، این تأخیر به طور قابل توجهی چند ثانیه برای یک راه حل راحت و کاربردی، به ویژه برای ارتباطات بلادرنگ، کند است.

رابط کاربری پیش فرض برای رونویسی گفتار ارائه شده توسط Azure Speech SDK
تاخیر نیز در بکاند یک مشکل جدی بود. در ابتدای هر جلسه، نتایج به صورت بلادرنگ (همانطور که تبلیغ شده بود!) میآمد، اما با ادامه جلسه، تاخیر به صورت دورهای تا سی ثانیه افزایش مییافت تا متن روی مانیتورها ظاهر شود. در آن زمان، هر آنچه گفته شده بود، مدتها بود که در مکالمه بیاهمیت شده بود. پس از آزمایشهای بیشمار، متوجه شدیم که تاخیر در طول روز تغییر میکند، که ما آن را به بار سرور Azure در آن لحظه نسبت دادیم. ما در کسبوکار ایجاد یک محصول ثابت و قابل اعتماد هستیم، بنابراین این تاخیرهای نوسانی و غیرقابل پیشبینی غیرقابل قبول بودند. این دلیل بیشتری برای تکیه بر مدلها و سرورهای خودمان است.
لهجه
یکی از دلایل خاصی که ما از ابتدا از Azure Speech Service استفاده کردیم، پشتیبانی گسترده آنها از طیف وسیعی از زبان ها و لهجه ها بود. ما به ویژه از استفاده از مدل انگلیسی سنگاپوری Azure Speech Service هیجان زده بودیم. اما تصور کنید که چقدر شگفت زده شدیم وقتی متوجه شدیم که برای لهجه سنگاپوری، مدل انگلیسی آمریکایی به طور مداوم از مدل انگلیسی سنگاپوری بهتر عمل می کند. علاوه بر این، حتی بهترین مدل نیز نتوانست چالش های دنیای واقعی را برآورده کند.

رونویسی حاصل از “تبریک! پسر یا دختر؟”
ما نتایجی مانند «مقررات اولا ممکن است کودک خنک آب پز شود» را میدیدیم در حالی که عبارت واقعاً «تبریک! پسر یا دختر؟» بود. یک مدل زبانی خوب آموزش دیده باید چنین رونویسی را حذف میکرد. در حالی که این یک مثال افراطی است، اغلب اوقات، در هر رونویسی خطایی وجود داشت. مهم نیست که خطا چقدر کوچک باشد، مانند یک مقاله گم شده یا کلمه ای که اشتباه فهمیده شده است، هر اشتباهی حواس پرت کننده است و میتواند به راحتی اعتبار یک سرویس رونویسی را از بین ببرد.
به روز رسانی ویندوز
چند هفته بعد، تیم شبهای متمادی را صرف اطمینان از آماده بودن محصول ما برای نمایش مشتری در چند روز آینده کرد. رونویسکننده جلسه ما به راحتی روی سه لپتاپ ویندوز جداگانه اجرا میشد. سپس یک روز از ناکجاآباد، ما به تنها یک کامپیوتر کاری کاهش یافتیم، با وجود اینکه هیچکس کد را دست نزده بود. ما شبکههای خود را آزمایش کردیم، فایروالهای خود را بررسی کردیم، هر چیزی که فکر میکردیم میتواند ناگهان باعث خرابی محصول ما شود. آخرین حدس ما این بود که یک بهروزرسانی ناگهانی ویندوز باعث شد Azure Speech SDK به طور غیرقابل توضیحی با دو کامپیوتر ما ناسازگار شود، زمانی که ما سه سیستم را بیت به بیت مقایسه کردیم. با نزدیک شدن سریع نمایش ما، استرس و تنش به نقطه شکست رسیده بود. با تنها یک سیستم باقیمانده، تیم پیمان بست: هیچ تغییری در کد و مطلقاً هیچ بهروزرسانی. پس از این مصیبت، ما به اندازه کافی داشتیم.
فراتر از جلسات مدرن
برای فرار از این موانع، تیم Seasalt.ai شروع به آموزش مدلهای صوتی و زبانی خود کرد تا با قابلیتهای رونویسکننده مکالمه Azure رقابت کند. در طول کل فرآیند، ما دائماً این سوال را میپرسیدیم که از اینجا به کجا میرویم؟ چگونه میتوانیم این محصول از قبل ابزاری را گسترش دهیم؟
جلسات مدرن پتانسیل قوی تبدیل گفتار به متن را نشان دادند، اما اینجاست که متوقف می شود. می تواند به ما گوش دهد، اما اگر بتوانیم آن را وادار کنیم که برای ما فکر کند چه؟ با فقط رونویسی، در حالی که محصول چشمگیر است، کاربردها تا حدودی محدود هستند. رفتن از رونویسی گفتار به هوش گفتار، درهایی را به روی آنچه می توانیم ایجاد کنیم، باز می کند. نمونه هایی از هوش شامل خلاصه جلسات، انتزاع موضوع و استخراج عمل است. در نهایت، طراحی یک رابط کاربری زیبا برای پیوند دادن همه چیز در یک بسته خیره کننده.
و این داستان تا کنون است، آغاز سفر Seasalt.ai برای آوردن بهترین راه حل های تجاری به بازاری که به سرعت در حال تحول است و ارائه آنها به جهان. اگر می خواهید جزئیات بیشتری بدانید، لطفاً به خواندن بقیه مجموعه وبلاگ ادامه دهید.