خلال سلسلة المدونات هذه، تابع رحلة Seasalt.ai لإنشاء تجربة اجتماعات حديثة شاملة، بدءًا من بداياتها المتواضعة، إلى تحسين خدماتنا على أجهزة ونماذج مختلفة، إلى دمج أنظمة البرمجة اللغوية العصبية الحديثة، وانتهاءً بالتحقيق الكامل لـ SeaMeet، حلول الاجتماعات الحديثة التعاونية لدينا.
عيوب الاجتماعات الحديثة
خلال تطويرنا، واجهنا العديد من العقبات غير المتوقعة دون أسباب أو حلول واضحة.
بداية سريعة
كانت العقبة الأولى هي تشغيل أدواتنا. قدمت Azure عينة من الاجتماعات الحديثة التي كنا سعداء بتوافقها مع Linux، لكننا اكتشفنا أن استخدام SDK على Windows لتشغيل العرض التوضيhi كان أسهل بكثير - حسنًا، لقد كان منتجًا من Microsoft بعد كل شيء. بعد العديد من المحاولات الفاشلة لتشغيل العينة المقدمة على Linux، اضطررنا في النهاية إلى التخلي عن هذا المسار واللجوء إلى Windows. أخيرًا، كان لدينا ناسخ كلام وظيفي، والذي كان بداية هائلة.
الكمون
كانت إحدى المشكلات التي واجهناها تأخيرًا لمدة خمس ثوانٍ تقريبًا في تلقي نتائج التعرف لدينا على واجهة المستخدم الأمامية. في حين أن 5 ثوانٍ قد تبدو سريعة إلى حد ما، إلا أن هذا التأخير أبطأ بشكل ملحوظ ببضع ثوانٍ من كونه حلاً مناسبًا وعمليًا، خاصة للاتصال في الوقت الفعلي.

واجهة المستخدم الافتراضية لنسخ الكلام التي يوفرها Azure Speech SDK
كان الكمون أيضًا مشكلة خطيرة في الواجهة الخلفية. في بداية كل اجتماع، كانت النتائج تأتي في الوقت الفعلي (كما هو معلن!) ولكن مع استمرار الاجتماع، كان الكمون يرتفع بشكل دوري إلى ما يصل إلى ثلاثين ثانية قبل ظهور النص على الشاشات. بحلول ذلك الوقت، كان كل ما قيل قد أصبح غير ذي صلة بالمحادثة منذ فترة طويلة. بعد اختبارات لا حصر لها، بدأنا نلاحظ أن الكمون يتغير على مدار اليوم، وهو ما نسبناه إلى حمل خادم Azure في تلك اللحظة. نحن في مجال إنشاء منتج متسق وموثوق به، لذلك كانت هذه التأخيرات المتقلبة وغير المتوقعة غير مقبولة. كل الأسباب تدفعنا للاعتماد على نماذجنا وخوادمنا الخاصة.
اللهجة
كان أحد الأسباب الخاصة التي جعلتنا نستخدم خدمة Azure Speech في المقام الأول هو دعمهم الواسع لمجموعة كبيرة ومتنوعة من اللغات واللهجات. كنا متحمسين بشكل خاص للاستفادة من نموذج اللغة الإنجليزية السنغافورية من Azure Speech Service. لكن تخيل دهشتنا عندما اكتشفنا أنه بالنسبة للهجة السنغافورية، كان أداء نموذج اللغة الإنجليزية الأمريكية أفضل باستمرار من نموذج اللغة الإنجليزية السنغافورية. علاوة على ذلك، حتى أفضل نموذج لم يرق إلى مستوى تحديات العالم الحقيقي.

النسخ الناتج عن “تهانينا! ولد أم بنت؟”
كنا نرى نتائج مثل “قد يتم غلي لوائح علا يا طفل رائع” بينما كان الكلام في الحقيقة “تهانينا! ولد أم بنت؟”. كان يجب أن يقضي نموذج لغوي مدرب جيدًا على مثل هذا النسخ. في حين أن هذا مثال متطرف، في كثير من الأحيان، كان هناك خطأ في كل نسخ. بغض النظر عن مدى صغر الخطأ، مثل أداة تعريف مفقودة أو كلمة يساء فهمها، فإن أي خطأ يشتت الانتباه ويمكن أن يدمر بسهولة سمعة خدمة النسخ.
تحديث Windows
بعد بضعة أسابيع، أمضى الفريق ليالي طويلة متتالية لضمان أن منتجنا جاهز لعرضنا التوضيحي للعميل بعد أيام قليلة فقط. كان ناسخ الاجتماعات لدينا يعمل بسلاسة على ثلاثة أجهزة كمبيوتر محمولة منفصلة تعمل بنظام Windows. ثم ذات يوم، فجأة، انخفض عدد أجهزة الكمبيوتر العاملة لدينا إلى جهاز واحد فقط على الرغم من أن أحداً لم يلمس الكود. اختبرنا شبكاتنا، وفحصنا جدران الحماية لدينا، وأي شيء يمكن أن نفكر فيه قد يتسبب فجأة في فشل منتجنا. كان تخميننا الأخير هو أن تحديث Windows مفاجئًا جعل Azure Speech SDK غير متوافق بشكل لا يمكن تفسيره مع اثنين من أجهزة الكمبيوتر لدينا عندما قارنا الأنظمة الثلاثة شيئًا فشيئًا. مع اقتراب عرضنا بسرعة، كان التوتر والضغط على وشك الانفجار. مع بقاء نظام واحد فقط، أبرم الفريق اتفاقًا: لا تغيير في الكود ولا تحديثات على الإطلاق. بعد هذه المحنة، اكتفينا.
ما بعد الاجتماعات الحديثة
للهروب من هذه العوائق، شرع فريق Seasalt.ai في تدريب نماذجنا الصوتية واللغوية الخاصة بنا لمنافسة قدرات ناسخ المحادثة في Azure. طوال العملية برمتها، ظللنا نطرح السؤال، إلى أين نذهب من هنا؟ كيف يمكننا التوسع في هذا المنتج المفيد بالفعل؟
أظهرت الاجتماعات الحديثة إمكانات قوية لتحويل الكلام إلى نص، ولكن هذا هو المكان الذي تتوقف فيه. يمكنه الاستماع إلينا، ولكن ماذا لو تمكنا من جعله يفكر نيابة عنا. مع النسخ فقط، على الرغم من أن المنتج مثير للإعجاب، إلا أن التطبيقات محدودة إلى حد ما. الانتقال من نسخ الكلام إلى ذكاء الكلام يفتح الأبواب على مصراعيها لما يمكننا إنشاؤه. تشمل أمثلة الذكاء ملخصات الاجتماعات، وتجريد الموضوعات، واستخراج الإجراءات. أخيرًا، تصميم واجهة جميلة لربط كل شيء معًا في حزمة مذهلة.
وهذه هي القصة حتى الآن، بداية رحلة Seasalt.ai لتقديم أفضل الحلول التجارية إلى سوق سريع التطور وتقديمها للعالم. إذا كنت ترغب في معرفة المزيد من التفاصيل، فيرجى متابعة قراءة بقية سلسلة المدونات.