خلال سلسلة المدونات هذه، تابع رحلة Seasalt.ai لإنشاء تجربة اجتماعات حديثة شاملة، بدءًا من بداياتها المتواضعة، إلى تحسين خدمتنا على أجهزة ونماذج مختلفة، إلى دمج أنظمة البرمجة اللغوية العصبية المتطورة وأخيرًا الانتهاء من التحقيق الكامل لـ SeaMeet، حلول الاجتماعات الحديثة التعاونية الخاصة بنا.
ما وراء الاجتماعات الحديثة
هنا في Seasalt.ai، أعجبنا بالقدرات الحالية التي أظهرها عرض Build 2019 لهذا المنتج، لكننا مهتمون أكثر بمعرفة ما يمكن أن يصبح عليه هذا المنتج، وكيفية نقل نسخ المحادثات إلى ما هو أبعد من التقليد. ولكن قبل أن تتمكن من التغلب على المنافسة، تحتاج أولاً إلى فهم اللعبة التي تلعبها عن كثب. وهكذا ولد SeaMeet. في بداياته، نظرنا إلى Azure كنموذج لفهم أسس ما يجعل خدمة نسخ قوية واستخدمنا خدمات Azure Speech كواجهة خلفية للاستفادة من هذه التكنولوجيا الراسخة.
تمامًا كما هو الحال مع أي منتج ناشئ، ظهرت التحديات على الفور. حرصًا على إطلاق منتجنا، اخترنا استخدام مجموعة ميكروفونات Microsoft Kinect DK، التي تم الترويج لها كجهاز مكمل لخدمات الكلام ويُفترض أنها مضبوطة للحصول على أفضل أداء من نماذج التعرف التلقائي على الكلام من Azure. على الرغم من أنه جهاز مصمم جيدًا ومصنوع جيدًا بشكل لا يمكن إنكاره، إلا أنه يأتي مع غلاف من الألومنيوم بالكامل، وعدسة واسعة الزاوية، وكاميرا عمق، ومجموعة ميكروفونات مكونة من 7 ميكروفونات. كما أنه يحمل سعرًا باهظًا يبلغ حوالي 400 دولار. اعتبارًا من أبريل 2021، واجه Kinect DK مشكلة خطيرة في نقص المخزون. ولا يزال غير متوفر حتى كتابة هذه السطور في سبتمبر 2021. وهذا يؤكد كذلك أن Kinect ليس الجهاز المناسب لنا.

كان Azure Kinect DK غير متوفر منذ 2021/4 بحلول وقت نشر هذا المقال (2021/9)
مجموعة الميكروفونات هي المكون الأول في خط أنابيب نسخ المحادثات. بصفتنا مزودين لخدمة النسخ، نحتاج إلى أن نكون قادرين على توفير أجهزتنا بشكل مستدام وموثوق.
قادتنا رحلتنا للعثور على مجموعة الميكروفونات المثالية إلى خيارين: Respeaker Array v2.0 و Respeaker Core v2.0. كلا الجهازين عبارة عن مصفوفات دائرية، أربعة وستة ميكروفونات على التوالي، وهي ميزة حاسمة لتكون قادرة على أداء تحديد موقع المصدر بزاوية 360 درجة وتسمح لنا بدمج هذه الأجهزة الجديدة بسهولة في نظامنا الحالي. الجمال الحقيقي لهذه الأجهزة هو أنها تأتي مع خوارزميات معالجة الإشارة المدمجة بما في ذلك إزالة الضوضاء وإلغاء الصدى وتشكيل الحزمة التي تم ضبطها بشكل مثالي لأبعاد الميكروفون.

Respeaker Array v2.0 يوضح VAD وتحديد موقع المصدر

عرض توضيحي للاجتماع المباشر مع Respeaker Array v2.0
بالنسبة لمجموعة الميكروفونات الأربعة Array v2.0، التي كانت تعمل بالكامل بواسطة منفذ USB، كان هذا يعني أن جهاز الكمبيوتر الخاص بالمستخدم كان عليه فقط التركيز على بث الصوت إلى الخادم. وهذا يفرغ معالجة الإشارة إلى مجموعة الميكروفونات.

Respeaker Core v2.0 مصور مع العرض التوضيحي
الأكثر إثارة للإعجاب هو Core v2.0 المجهز بمعالج ARM و 1 جيجابايت من ذاكرة الوصول العشوائي. قادر على تشغيل توزيع Linux كامل وبقوة معالجة كافية لتشغيل برنامج العميل الخاص بنا، لم نقم فقط بتفريغ المعالجة من جهاز الكمبيوتر الخاص بالمستخدم باستخدام هذا الجهاز، بل أزلنا تمامًا الحاجة إلى توصيل جهاز كمبيوتر بالميكروفون. نظرًا لأن مصفوفات الميكروفونات تقوم الآن بالمعالجة الثقيلة، فقد قللنا من متطلبات الأجهزة اللازمة لتشغيل منتجنا وبالتالي زدنا بشكل فعال جمهورنا الذي يمكنه الاستفادة من SeaMeet.

مثال Core v2.0 على وضع الميكروفون المستقل
خاصية أخرى فريدة لهذه المصفوفات الميكروفونية هي عدم وجود غلاف لها. يتم شحن كلاهما كلوحات PCB عارية مع الميكروفونات والرقائق والمنافذ كلها مكشوفة. بينما يرى الكثيرون هذا على أنه إزعاج، فإننا نرى فرصة لإنشاء جهاز فريد من نوعه لا لبس فيه Seasalt.
باستخدام هذه الأجهزة، نربط العقدة على نموذجنا الأولي من SeaMeet، خدمة نسخ الاجتماعات الحديثة والمتطورة لدينا. وبهذا نختتم سلسلتنا المكونة من خمسة أجزاء، بدءًا من عندما كان SeaMeet مجرد بذرة مستوحاة من عرض Microsoft التوضيحي، وانتهاءً بمنتج مستقل تمامًا. لا يزال SeaMeet في مراحله الأولى، ولديه رحلة مثيرة في المستقبل بينما نواصل صقل نظام تحديد المتحدثين، وفهم الاجتماعات، ونماذج اللغة. فريق Seasalt.ai حريص على مواصلة إحداث ثورة في طريقة إدارة الأعمال في العالم.