خلال سلسلة المدونات هذه، تابع رحلة Seasalt.ai لإنشاء تجربة اجتماعات حديثة شاملة، بدءًا من بداياتها المتواضعة، إلى تحسين خدمتنا على أجهزة ونماذج مختلفة، إلى دمج أحدث أنظمة البرمجة اللغوية العصبية وأخيراً الانتهاء من الإدراك الكامل لـ SeaMeet، حلول الاجتماعات الحديثة التعاونية لدينا.
مستقبل الاجتماعات الحديثة
في Microsoft Build 2019، أثارت مايكروسوفت حماس الجمهور عندما كشفت عن أحدث حلولها للحوسبة السحابية: خدمات Azure Speech، وبشكل أكثر تحديدًا تطبيق نسخ الاجتماعات الخاص بها. بعد تقديمه، هبط ناسخ المحادثات هذا على الفور على رادار الجميع وحصل على إشارات بين أفضل المدونات والمجلات التقنية. أظهر العرض التوضيحي، الموضح في الفيديو أدناه في عام 2019، الكثير من القوة من خدمات Azure Speech. لم نكن نعلم أنه سرعان ما أصبح مقدمة لكيفية عقد الاجتماعات الحديثة في ظل جائحة عالمية وما بعد الجائحة: الانتقال من المادي إلى الافتراضي إلى الهجين.

تم الإعلان عنها كمنصة لنسخ المحادثات، وقد أثبت عرض مايكروسوفت لخدمة نسخ الاجتماعات في Azure، والتي تم تقديمها على نحو ملائم باسم “مستقبل الاجتماعات الحديثة”، خدمتها الجديدة كمنصة قوية وفعالة لتحويل الكلام إلى نص (STT) مناسبة لجميع الشركات التي تبحث عن طريقة لالتقاط جميع مؤتمراتها المهمة بسرعة وبشكل منظم.
ما الذي يجعل هذه الخدمة قمة نسخ الاجتماعات؟ أولاً، الأداء في الوقت الفعلي. مع ازدياد سرعة التكنولوجيا، ينمو الصبر بشكل أرق حيث أن تأخير بضع ثوانٍ أكثر من كافٍ لإزعاج المستخدم العادي. ومع ذلك، أثبتت مايكروسوفت أن ناسخ المحادثات الخاص بها أسرع من كافٍ، حيث يوفر نسخًا دقيقة أسرع من بعض خدمات التسميات التوضيحية المغلقة، مما يجعله ممكنًا تمامًا لمتابعة محادثة متزامنة مع النص وحده.
بعد ذلك، عرضت مايكروسوفت أيضًا إمكانات تحديد المتحدث الخاصة بها. إن الانتهاء من فوضى نص المحادثة غير المنظم أمر محبط وعديم الفائدة، لكن تحديد المتحدث يقوم تلقائيًا بتسمية كل كلام مع المتحدث مما يخلق تنسيقًا سهل الاستهلاك.
كل يوم، تزداد قوة أجهزة الحوسبة يومًا بعد يوم وتتطلع الشركات إلى الضغط على كل نواة أخيرة من أحدث وحدات المعالجة المركزية ووحدات معالجة الرسومات. غالبًا ما تنجرف التكنولوجيا القديمة إلى التقادم ويضطر العملاء إلى الترقية كل عامين فقط للبقاء على صلة بالمجتمع. في “مستقبل الاجتماعات الحديثة”، قامت مايكروسوفت بتحسين خدمة Azure Speech للعمل على أجهزة من الدرجة الاستهلاكية مع الحفاظ على الحسابات الثقيلة من جانبها، مما أدى إلى توسيع عدد السكان الكبير بالفعل الذين يمكنهم الاستفادة من هذه الخدمة.
تهدف خدمة نسخ الاجتماعات في Azure إلى تحسين الطريقة التي ندير بها أعمالنا. ستعمل كل منظمة بشكل جيد على دمج منتج مثل هذا في سير عملها. في يوم عادي، تتدفق المعلومات باستمرار وكل جزء لا يقل أهمية عن الجزء الأخير، سواء كان تذكيرًا أو مهامًا أو تحديثات. في كثير من الأحيان تضيع الأشياء في الشقوق وهذا يعني إهدار الوقت والأرباح الضائعة. ما يقدمه حل مايكروسوفت هو سجل كامل يتم إنشاؤه تلقائيًا يحدد بالضبط ما قيل ومن قاله، لذلك ولت أيام المعلومات المفقودة والبحث الأعمى في التسجيلات الصوتية الطويلة عن قسم معين. الآن، يتم عرض جميع المعلومات التي تحتاجها بشكل منظم لتتمكن من الرجوع إليها كلما احتجت إليها. هذه التكنولوجيا أكثر أهمية من أي وقت مضى. إذا علمنا عام 2020 أي شيء فهو الحاجة إلى المرونة، خاصة في مكان العمل. يمرض الناس وتنشأ أحداث غير متوقعة لذلك يكاد يكون من المستحيل توقع حضور الموظفين لكل مناقشة. مع الاجتماعات الحديثة، نحن على بعد خطوة واحدة من أن نكون قادرين على استيعاب هذه التطورات غير المتوقعة من خلال منح الجميع بشكل أساسي القدرة على التواجد هناك دون التواجد هناك بالفعل.
تنفيذ الاجتماعات الحديثة
في منتصف عام 2020، تلقينا طلبًا لتقديم عرض من عميل حكومي في سنغافورة. نعم، كانت لا تزال جائحة. لكن سنغافورة كانت تسيطر عليها لذلك كانت الاجتماعات الحكومية لا تزال تعقد في قاعات المؤتمرات المادية. لقد أرادوا حلاً حديثًا يمكنه نسخ الكلام من ما يصل إلى 12 متحدثًا مختلفًا. علاوة على ذلك، سيلعب تحديد المتحدث دورًا مهمًا هنا.
فيما يتعلق بتحديد المتحدث، فإن أحد الاختلافات المهمة بين ما تقدمه Azure وما يحتاجه العميل هو “تسجيل” الصوت: يتطلب Azure بعض الأصوات المسجلة مسبقًا من جميع المتحدثين لتسجيل بصمة صوتهم في النظام. ومع ذلك، من المستحil أن نطلب من بعض المسؤولين الحكوميين المهمين جدًا على ما يبدو الجلوس أمام ميكروفون ليتم تسجيلهم. لقد قمنا ببعض التعديلات على العملية من خلال إجراء تجميع غير خاضع للرقابة للمتحدثين أولاً (يُطلق عليه أيضًا تحديد هوية المتحدث). الفكرة هي أنه إذا تحدث متحدث مرة واحدة في نظامنا، فسوف نتعرف عليه في المرة التالية التي يتحدث فيها.
بنية الاجتماعات الحديثة من نسخ محادثة Azure. في تعديلنا، قمنا بتخفيف متطلبات “تسجيل المستخدم” قبل الاجتماع إلى ما بعد الاجتماع.
ثم قمنا بتجميع ترسانتنا بسرعة للمشروع بأكمله. كانت الخطوة الأولى هي الحصول على مجموعة ميكروفون عالية الجودة من شأنها أن توفر بيانات صوتية واضحة تمامًا لنماذج التعرف لدينا. لقد أغرينا على الفور بـ Azure Kinect: مجموعة أنيقة من 7 ميكروفونات موجودة في علبة من الألومنيوم بالكامل مع ميزة إضافية تتمثل في كاميرا عالية الدقة ومستشعرات عمق.

يستخدم Azure Kinect DK بقيمة 400 دولار للاجتماعات الحديثة
من خلال المظهر وحده، هذا جهاز متطور حقًا من شأنه أن يكمل أي غرفة اجتماعات، ولكن الأهم من ذلك أن مجموعة الميكروفون القوية وعدت بالجودة التي كنا نبحث عنها. مع الترتيب الدائري، فتحت الميكروفونات السبعة إمكانية استخدام أحدث تقنيات معالجة الإشارات مثل تحديد موقع المصدر وتشكيل الحزمة. كان هذا الميكروفون أيضًا الاقتران المثالي مع الواجهة الخلفية لدينا والتي استخدمت خدمات Azure Speech، وهي منصة راسخة لتحويل الكلام إلى نص تمنح منتجنا القوة التي يحتاجها ليكون ناسخًا للاجتماعات من الدرجة الأولى.

يأتي Azure Kinect DK مع مجموعة من 7 ميكروفونات لالتقاط الأصوات
في حين أن Azure لم تصل إلى المرحلة النهائية من SeaMeet، إلا أنها أعطتنا البداية التي نحتاجها لنكون قادرين على تحقيق رؤيتنا. أخيرًا ربطنا كل هذا بواجهة مستخدم. في تكرارنا الأول، اكتفينا بتصميم عام قائم على Java، على الرغم من بساطته، كان يعمل بشكل مثالي. نظرًا لأن جهاز Kinect لا يمكنه تشغيل تعليمات برمجية خارجية، فقد كان على كل هذا أن يعمل على كمبيوتر محمول إضافي واحد يعمل بنظام Windows. على الرغم من أنه كان خشنًا بعض الشيء في البداية، إلا أننا كنا فخورين بالقول إن لدينا منتجًا لنسخ الاجتماعات يعمل بكامل طاقته.

تنفيذ الاجتماعات الحديثة باستخدام Azure Kinect وجهاز كمبيوتر يعمل بنظام Windows، والذي يقوم بتشغيل واجهة مستخدم بسيطة قائمة على Java لعرض نسخ الاجتماعات في الوقت الفعلي وتحديد المتحدث.
نشر الاجتماعات الحديثة
في مايو 2021، وصل مهندسونا إلى سنغافورة لنشر حل أعمالنا الحديث كدليل على المفهوم. في مواجهة شركتين منافستين أخريين، تم تكليف كل منا بإظهار رؤيتنا لمستقبل الاجتماعات.
على الرغم من حقيقة أن اللاسلكي أصبح هو القاعدة على مدى العقد الماضي، فقد وجدنا أن منافسينا لا يزالون يختارون حلاً سلكيًا. كما ترون من الصورة، كان كل من المتحدثين الـ 12 مثبتًا بميكروفون فردي. كان على المتحدث أن يتحدث مباشرة في الميكروفون في مكان قريب حتى يلتقط النظام صوته. هذا لا يعيق المرونة بشدة فحسب، بل إن هذا الإعداد يضاعف أيضًا من التعقيد مع معدات الصوت والصورة المعقدة. من ناحية أخرى، فإن حلنا مدعوم بالكامل بقدرات المجال البعيد، بفضل مجموعة الميكروفونات السبعة وخوارزميات معالجة الإشارات.
إلى حد ما، كان حلنا يشبه إلى حد كبير “Alexa for Business”: جهاز واحد يغطي الغرفة بأكملها، مع الحاجة إلى كابل طاقة واحد فقط. بالمقارنة مع حل منافسينا، فإن حلنا يتقدم بأجيال بمعنى أننا نفهم حقًا احتياجات الشركات الحديثة بينما لا يزالون مقيدين تمامًا بالجيل السلكي القديم.

إعداد غرفة اجتماعات إثبات المفهوم. كان هناك 12 متحدثًا يحاكون اجتماعًا حكوميًا لمدة ساعتين.

لقطة مقربة لجميع المعدات في الموقع.
كان الفريق متحمسًا لرؤية الفرق الكبير. مع بضع ساعات من الضبط، سار إثبات المفهوم النهائي بسلاسة تامة. استمتع الفريق أيضًا بجولة في سنغافورة بعد إثبات المفهوم، في بلد تم فيه احتواء Covid-19 بصرامة حتى تسير الحياة والأعمال كالمعتاد.
ما وراء الاجتماعات الحديثة
خلال فترة وجودنا في سنغافورة، تجاوزت أفكارنا إثبات المفهوم الناجح: مقارنة بالحلول المنافسة الأخرى، كان حلنا أفضل 10 مرات. ولكن كيف يمكننا أن نفعل أفضل 10 مرات من أنفسنا؟ يرجى اتباع خطواتنا إلى المدونة التالية في هذه السلسلة.