بعد إطلاق SeaVoice، أحد أسرع وأدق روبوتات تحويل النص إلى كلام وتحويل الكلام إلى نص على Discord، أردنا أن نفهم كيف يتفاعل المستخدمون فعليًا مع الخدمات. في هذه المدونة، سنناقش النتائج التي توصلنا إليها بعد مراجعة عدة أسابيع من بيانات مستخدمي تحويل الكلام إلى نص الحقيقية.
SeaVoice: روبوت Discord لتحويل النص إلى كلام وتحويل الكلام إلى نص
Discord، كونها منصة تستخدم بشكل أساسي لمزيج من الدردشة الصوتية والنصية، هي أرض اختبار رائعة لخدمات الذكاء الصوتي ومعالجة اللغة الطبيعية. لقد قمنا بنشر روبوت SeaVoice، المجهز بأوامر تحويل النص إلى كلام وتحويل الكلام إلى نص، على Discord في أغسطس 2022. لمعرفة المزيد حول كيفية عمل الروبوت، أو مشاهدة عرض فيديو قصير، يمكنك زيارة ويكي روبوت SeaVoice. في نوفمبر من نفس العام، أصدرنا إصدارًا جديدًا بتحسينات كبيرة في الواجهة الخلفية (كما هو موضح في منشور مدونتنا: روبوت SeaVoice Discord: تحسينات الواجهة الخلفية والاستقرار) التي تسمح لنا بتسجيل بيانات مجهولة حول كيفية تفاعل المستخدمين مع روبوت SeaVoice. في مدونتنا الأخيرة (دراسة حالة روبوت TTS Discord) قمنا بتحليل بيانات مستخدم لمدة شهر واحد من أمر تحويل النص إلى كلام. كمتابعة، في هذا المنشور سنلقي نظرة على بيانات مستخدم تحويل الكلام إلى نص لمدة 3 أسابيع تقريبًا.
استخدام SeaVoice STT
في وقت كتابة هذا التقرير، تمت إضافة روبوت SeaVoice إلى ما يقرب من 900 خادم! لقد جرب حوالي 260 خادمًا يبلغ مجموعها أكثر من 600 مشارك أمر STT مرة واحدة على الأقل. في الأسابيع الثلاثة الماضية، استضفنا ما يقرب من 1800 جلسة STT وأنتجنا ما مجموعه أكثر من نصف مليون سطر نصي.

جلسات تحويل الكلام إلى نص اليومية لروبوت SeaVoice Discord على مدار 3 أسابيع.
إذا نظرنا إلى العدد الإجمالي لجلسات STT يوميًا، فقد وجدنا أنها يمكن أن تتراوح من 40 إلى أكثر من 140 (بمتوسط حوالي 70). يمكننا أيضًا النظر في العدد الإجمالي لخطوط النسخ التي ننتجها. في أبطأ يوم، ننتج ما لا يقل عن 10 آلاف سطر، ومع ذلك، في يوم مزدحم، أنتجنا أكثر من 40 ألف سطر. لوضع ذلك في المنظور، في 18 يناير، استضفنا 102 جلسة STT بإجمالي أقل بقليل من 30 ألف سطر نصي؛ بلغ ذلك ما يقرب من 40 ساعة من وقت التسجيل.
وجدنا أيضًا أنه بينما تستخدم معظم الجلسات للمحادثات القصيرة (متوسط 57 سطرًا لكل جلسة)، هناك عدد كبير من الجلسات الطويلة جدًا التي ترفع المتوسط إلى 650 سطرًا لكل جلسة. كانت أطول جلسة لدينا أكثر من 30 ألف سطر، أي أكثر من متوسط يوم كامل! أخيرًا، ألقينا نظرة أيضًا على عدد المستخدمين الذين يميلون إلى التواجد في كل جلسة ووجدنا أن هناك عادةً 4 إلى 5 مستخدمين في كل جلسة - ومع ذلك، استخدمنا الروبوت مرة واحدة لدعم النسخ المباشر في ندوة افتراضية شارك فيها 45 مشاركًا!

خطوط روبوت SeaVoice Discord المنسوخة يوميًا على مدار 3 أسابيع.
بينما لم تستخدم غالبية الخوادم جلسة STT أكثر من بضع مرات، هناك عدد لا بأس به يستخدم الخدمة على نطاق واسع. منذ أن بدأنا في تسجيل بيانات استخدام STT في أواخر ديسمبر، يبلغ متوسط العدد الإجمالي للجلسات لكل خادم حوالي 7؛ ومع ذلك، سجل خادمنا الأول 131 جلسة - أي بمتوسط أكثر من 6 جلسات يوميًا! قام نفس الخادم بنسخ أكثر من 150 ألف سطر من الكلام في 3 أسابيع فقط! ربما الأكثر إثارة للإعجاب من ذلك، أن مستخدمنا الأول من نفس الخادم وقد تم نسخ أكثر من 60 ألف سطر من كلامه الخاص!
الملاحظات
لماذا يستخدم الناس تحويل الكلام إلى نص

مستخدم روبوت SeaVoice Discord يعبر عن حماسه لملفات الصوت والنص المستمرة.
لذا كان سؤالنا الأول بعد رؤية بيانات الاستخدام هو: لماذا يستخدم المستخدمون المتكررون تحويل الكلام إلى نص في المقام الأول؟
لقد بحثنا في قاعدة البيانات للعثور على بعض التفسيرات. ومع ذلك، ثبت أنه من الصعب العثور على تفسيرات ملموسة لسبب استخدام المستخدمين لخدمة STT بدلاً من خدمة TTS. يبدو أن الناس يشعرون بالحاجة إلى شرح للآخرين في الدردشة سبب استخدامهم لـ TTS، ولكن أقل من ذلك مع STT. بغض النظر، لقد وجدت بعض النصوص المثيرة للاهتمام التي أعطت بعض الأفكار حول سبب قرار المستخدمين استخدام خدمة STT.
لماذا يستخدم المستخدمون STT:
- “هذا هو سبب استخدام النسخ لأنه يمكنني النظر إلى الأشياء التي فاتني.”
- “[المستخدم] يعاني من ضعف السمع، لذلك يحصل على روبوت ينسخها”
- “[المستخدم] يداهم معهم ويستخدمونها لنسخ الأشياء، ولكن بعد ذلك قال [المستخدم]، أوه، يمكننا استخدام ذلك لأشياء D و D أيضًا”
- “لا أستطيع الانتظار للعودة وقراءة بعض هذه النصوص لاحقًا […] أريد العودة للاستماع إلى هذا التسجيل والنظر إلى هذا النص مرة أخرى”
- “إذا عقدنا اجتماعاتنا هنا، فيمكننا إدخال نص الاجتماع في الذكاء الاصطناعي”
- “أثناء اجتماع مع أشخاص، من الرائع رؤية نص”
- “[الأشخاص] الذين ليسوا في الدردشة أو الأشخاص الذين هم في المجتمع، ولكن ليسوا جزءًا من الدردشة الصوتية، لكنهم يقررون النظر والقراءة”
لذا بشكل عام، يبدو أن معظم المستخدمين يستمتعون براحة وجود نسخ مباشر يمكن أن يساعدهم في تتبع المحادثة وملء أي فجوات فاتهم. هذا هو الحال بشكل خاص للمستخدمين الذين يعانون من ضعف السمع أو صعوبات في الصوت/الاتصال. بالنسبة لبعض المستخدمين، فإن أكبر ميزة هي الاحتفاظ بسجل صوتي ونصي دائم لمحادثتهم؛ يمكن أن يكون هذا مناسبًا بشكل خاص لحالات الاستخدام مثل الاحتفاظ بسجل جلسة Dungeons & Dragons أو الاحتفاظ بسجل للاجتماعات المهمة.
نظرًا لأن العديد من المستخدمين لم يذكروا صراحة سبب استخدامهم لخدمة STT، فقد بدا من المفيد أيضًا الحصول على فكرة عما كانوا يفعلونه أثناء استخدام الروبوت. مراجعة النصوص من المستخدمين أعطتني تلميحات حول الأنشطة التي كانوا يقومون بها أثناء النسخ:
ما يفعله المستخدمون أثناء استخدام STT:
- مجرد الدردشة
- الألعاب:
- الألعاب العادية
- الألعاب المتقدمة (مثل/ تنسيق غارات MMO الجماعية، ألعاب متعددة اللاعبين عبر الإنترنت)
- ألعاب لعب الأدوار (Dungeons & Dragons)
- بث / تسجيل المحتوى
- مناقشة العمل المدرسي / المهني / التطوعي
الغالبية العظمى من النصوص تقع ضمن فئات “مجرد الدردشة” و “الألعاب العادية”. كما رأينا أعلاه، أعتقد أن معظم المستخدمين في هذه الحالة يستخدمون الروبوت لتحسين إمكانية الوصول إلى قناة Discord الصوتية و/أو الاستمتاع براحة رؤية النسخ المباشر لملء أي فجوات فاتهم في المحادثة. في بعض الحالات (مثل عند استخدامها لغارات MMO)، تكون مناقشات الألعاب معقدة للغاية ويتعاون المستخدمون مع بعضهم البعض في الوقت الفعلي؛ يمكن أن تكون النصوص المباشرة مفيدة للغاية لنجاح الفريق حيث يمكن للمستخدمين الرجوع إلى النصوص أثناء اللعب.

مثال على مناقشة معقدة أثناء غارة MMO.
يبدو أيضًا أن العديد من المستخدمين يستخدمون الروبوت لنسخ محادثات أكثر جدية مثل اجتماعات المجتمع المدرسي والمهني و/أو التطوعي. لقد استخدمنا أيضًا روبوتنا لنسخ مؤتمر تقني عبر الإنترنت، UnTechCon. في هذه الحالات، قد تكون ملفات التسجيل والنص النهائية مفيدة جدًا للمستخدمين للمراجعة بعد الاجتماع. مثال آخر مثير للاهتمام وجدته هو مستخدم يسجل محتوى لتدفقه. نظرًا لأن النص النهائي يأتي مع طوابع زمنية، يمكن للمستخدمين تحميل ملف النص كترجمات لمحتواهم الصوتي أو المرئي المسجل.

مستخدم SeaVoice يعبر عن شكره لجعل قنوات Discord الصوتية أكثر سهولة الوصول.
ولكن بغض النظر عن السبب الدقيق لاستخدامهم لخدمة STT، أعرب العديد من المستخدمين عن حماسهم لأنهم تمكنوا من المشاركة في محادثات القناة الصوتية بينما لم يتمكنوا من ذلك بخلاف ذلك. نعتقد أن خدمة STT تجعل قنوات Discord الصوتية أكثر سهولة الوصول، وهذا هو السبب الرئيسي الذي يجعل مستخدمينا المنتظمين يواصلون استخدام الخدمة.
تعليق حول روبوت SeaVoice Discord
موضوع آخر مثير للاهتمام وجد في السجلات هو التعليق على الروبوت نفسه. لحسن الحظ، رأينا العديد من التعليقات الإيجابية للغاية حول الروبوت وأدائه.

مستخدم SeaVoice يعلق على دقة النسخ.
وجدنا أيضًا العديد من الملاحظات البناءة.

مستخدم SeaVoice يقترح تحسينًا للهجات البريطانية.

مستخدم يقارن أداء SeaVoice على اللغة الإنجليزية بلكنة مع أداء Siri.
كانت معظم التعليقات البناءة تتعلق بعدم أداء الروبوت بشكل جيد على اللغة الإنجليزية بلكنة غير أمريكية؛ على وجه الخصوص، ذكر المستخدمون اللهجات البريطانية والاسكتلندية. لمستقبل خدمات STT لدينا، يمكننا بذل جهد كبير لتحسين التعرف على الكلام لدينا لمختلف لهجات اللغة الإنجليزية. بالطبع، اللغة الإنجليزية ليست اللغة الوحيدة التي يتحدثها مستخدمونا، لذلك نخطط أيضًا لإضافة المزيد من دعم اللغات إلى الروبوت. في الواقع، نحن حاليًا ننهي تكاملات STT و TTS للغة الماندرين التايوانية، وسنصدر نسخة محدثة من الروبوت قريبًا.
الخصوصية وحساسية البيانات والمحتوى الذي يحتمل أن يكون مسيئًا
تطوير الذكاء الاصطناعي محاط بسيل من المعضلات الأخلاقية. تحتاج نماذجنا إلى كميات هائلة من بيانات المستخدم الحقيقية لتعمل بشكل جيد، ولكن كيف نجمع تلك البيانات بشكل أخلاقي مع احترام خصوصية مستخدمينا؟ تتعلم النماذج فقط بناءً على البيانات التي يتم تزويدها بها وبالتالي لديها تحيزات (ربما غير متوقعة)؛ فكيف يمكننا التأكد من أن نماذجنا تخدم جميع مستخدمينا بنفس القدر من الجودة؟ علاوة على ذلك، لا تملك نماذجنا أي مفهوم للمقبولية الاجتماعية وقد تنتج نتائج يجدها بعض المستخدمين مسيئة. كما قال أحد مستخدمينا ببراعة: “هل هو عنصري إذا فعل الروبوت ذلك، هذا هو السؤال”.

مستخدم SeaVoice يشير إلى نسخ غير دقيق إشكالي.
السبب الذي يجعلني أثير هذه النقاط هو وجود بعض النصوص المقلقة في السجلات. المشكلة الأولى هي أن الروبوت ينسخ أحيانًا محتوى مسيئًا. في المثال أعلاه، قام الروبوت عن طريق الخطأ بنسخ اسم مستخدم شخص ما على أنه إهانة عنصرية. من الواضح أن هذا خطأ من جانب الروبوت قد يكون مسيئًا لمستخدمينا ويجب التحقيق فيه. ولكن هذا يؤدي إلى المزيد من الأسئلة: أين نرسم الخط الفاصل بين الإساءة والضرر؟

مستخدم SeaVoice يعلق على محاولة حجب كلمات معينة من النسخ.
حسنًا، للبدء، قررنا منح هذه القوة للمستخدمين. إحدى الميزات التالية التي سنعمل عليها هي الرقابة القابلة للتكوين لـ TTS و STT. سيسمح هذا للخوادم بتطبيق الرقابة اختياريًا على الكلمات البذيئة والمحتوى الجنسي والإهانات العنصرية وما إلى ذلك.

مستخدم SeaVoice يحذر مشاركًا آخر ليكون واعيًا بأن ما يقولونه سيظهر في النسخ.
من المثير للاهتمام، أن مشكلة أخرى ذات صلة رأيناها هي أن المستخدمين يفرضون رقابة ذاتية على أنفسهم لتجنب ظهور أشياء معينة في النسخ. كان هذا شائعًا بشكل مدهش، ورأيت العديد من الحالات التي شرح فيها المستخدمون أنهم لا يريدون أن ينسخ الروبوت ما سيقولونه، فتوقفوا ثم أعادوا تشغيل STT. هذا مصدر قلق مشروع تمامًا من جانب المستخدم إذا كانوا، على سبيل المثال، لا يريدون أن ينسخ الروبوت بعض المعلومات الحساسة.

كيفية إيقاف STT مؤقتًا عن طريق كتم صوت الروبوت.
لست متأكدًا مما إذا كان هناك أي طريقة يمكننا من خلالها تحسين تجربة المستخدم في هذه الحالة، لكنني أنصح المستخدمين بأنه يمكنهم “كتم صوت” الروبوت مؤقتًا لإيقاف إرسال أي صوت إلى الروبوت. في هذه الحالة، لن يتلقى الروبوت أي بيانات صوتية حتى يتم إلغاء كتم صوته، لذلك يمكن للمستخدم بشكل أساسي إيقاف جلسة STT مؤقتًا دون إيقاف وبدء جلسة جديدة.

مستخدم SeaVoice يعلق على عدم ارتياح مشارك آخر للروبوت.
أخيرًا، المشكلة الأخيرة التي رأيناها هي أن بعض المستخدمين يشعرون بعدم الارتياح الشديد تجاه نسخ الروبوت لدرجة أنهم يتجنبون التحدث بنشاط في القناة الصوتية أثناء وجود الروبوت. هذا هو العكس تمامًا لهدفنا، وهو جعل قنوات Discord الصوتية أكثر سهولة الوصول للجميع. بينما نأمل أن يقبل المستخدمون سياسة الخصوصية الخاصة بنا ويثقوا بنا في استخدام بياناتهم بمسؤولية، فإننا نحترم تمامًا حق الجميع في الخصوصية. على هذا النحو، الميزة التالية التي سنقوم بتنفيذها هي إعداد إلغاء الاشتراك في STT. سيسمح هذا لأي مستخدم باستبعاد نفسه من تسجيل ونسخ STT، ولن يتم الوصول إلى بياناته الصوتية أو جمعها بأي شكل من الأشكال بواسطة الروبوت.
نأمل أن تسمح لنا هذه الميزات المخطط لها بمواصلة جعل القنوات الصوتية أكثر سهولة الوصول للجميع مع منح المستخدمين القدرة على التفاعل مع روبوت SeaVoice على مستوى يشعرون بالراحة معه. سنواصل المضي قدمًا في بذل جهد لمعالجة هذه المشكلات الصعبة بشكل استباقي لجعل SeaVoice أفضل ما يمكن أن يكون!
شكرًا لاهتمامك بروبوت Discord الخاص بنا وشكرًا لمستخدمينا على دعمكم المستمر! يمكنك معرفة المزيد عن منتج STT الخاص بنا على الصفحة الرئيسية لتحويل الكلام إلى نص SeaVoice. للحصول على عرض توضيحي فردي لأي من منتجاتنا للذكاء الصوتي، املأ نموذج حجز عرض توضيحي.
إذا لم تكن قد جربت روبوت SeaVoice بعد، يمكنك معرفة المزيد عن روبوتنا وإضافته إلى خادمك من ويكي روبوت SeaVoice Discord. لا تتردد أيضًا في الانضمام إلى خادم Discord الرسمي لـ SeaVoice.