بعد إطلاق SeaVoice، أحد أسرع وأدق روبوتات تحويل النص إلى كلام والكلام إلى نص على Discord، أردنا أن نفهم كيف يتفاعل المستخدمون بالفعل مع الخدمات. في هذه المدونة، سنناقش النتائج التي توصلنا إليها بعد مراجعة عدة أشهر من بيانات مستخدمي تحويل النص إلى كلام الحقيقية.
SeaVoice: بوت Discord لتحويل النص إلى كلام والكلام إلى نص
Discord، كمنصة تستخدم بشكل أساسي لمزيج من الدردشة الصوتية والنصية، هي أرض اختبار رائعة لخدمات الذكاء الصوتي ومعالجة اللغة الطبيعية. لقد قمنا بنشر بوت SeaVoice، المجهز بأوامر تحويل النص إلى كلام والكلام إلى نص، على Discord في أغسطس 2022. لمعرفة المزيد حول كيفية عمل البوت، أو لمشاهدة عرض فيديو قصير، يمكنك زيارة ويكي بوت Discord SeaVoice. في نوفمبر من نفس العام، أصدرنا نسخة جديدة مع تحسينات كبيرة في الواجهة الخلفية (كما هو موضح في منشور مدونتنا السابق: بوت Discord SeaVoice: تحسينات الواجهة الخلفية والاستقرار) التي تسمح لنا بتسجيل بيانات مجهولة المصدر حول كيفية تفاعل المستخدمين مع بوت SeaVoice. في هذه المدونة، سنلقي نظرة على بيانات المستخدم لمدة شهر واحد من أمر تحويل النص إلى كلام.
استخدام SeaVoice TTS

الاستخدام اليومي لتحويل النص إلى كلام لبوت Discord SeaVoice على مدار 7 أسابيع.
في وقت كتابة هذا التقرير، تمت إضافة بوت SeaVoice إلى ما يقرب من 800 خادم! منذ أن بدأنا في تسجيل بيانات الاستخدام في نوفمبر، وجدنا أن العدد الإجمالي للطلبات يوميًا يمكن أن يتراوح من 150 إلى أكثر من 1300 (بمتوسط حوالي 560). حاول حوالي 650 مستخدمًا بالفعل استخدام أمر TTS مرة واحدة على الأقل. ومع ذلك، فإن معظم المستخدمين لا يستمرون في استخدامه بانتظام بعد تجربته. من بين هؤلاء الـ 650 مستخدمًا الذين جربوا أمر TTS، استخدمه حوالي 200 مستخدم 20 مرة أو أكثر، و 100 فقط استخدموه 50 مرة أو أكثر. ومع ذلك، فإن أولئك الذين يستمتعون ويعتمدون على أمر TTS يستخدمونه على نطاق واسع! لقد قدم أفضل 5 مستخدمين لدينا أكثر من 1000 طلب لكل منهم في الشهرين الماضيين، وقدم المستخدم الأول ما يقرب من 2500 طلب وحده!
ملاحظات
لماذا يستخدم الناس تحويل النص إلى كلام

أسباب استخدام مستخدمي بوت Discord SeaVoice لتحويل النص إلى كلام.
لذا، سؤالنا الأول بعد رؤية بيانات الاستخدام هو: لماذا يستخدم المستخدمون المتكررون TTS في المقام الأول؟ لقد بحثنا في قاعدة البيانات للعثور على بعض التفسيرات. فيما يلي أوامر TTS حقيقية من بعض مستخدمينا.
لماذا لا تتحدث؟
- كما أنني لا أستطيع التحدث لأنني آكل
- كنت سأتحدث بالفعل، لكنني في العمل حاليًا.
- إذا تحدثت، فسأوقظ عائلتي
- آسف، لن أتحدث كثيرًا. حلقي يؤلمني بشدة.
- يمكنني التحدث لكن أمي هنا
- أنا كسول جدًا لأتحدث اليوم
- لا أستطيع التحدث لأنني مريض ولكني أردت الدخول على أي حال :)
- ليس صامتًا تمامًا، فقط يتطلب جهدًا للتحدث. الكثير من الجهد في بعض الأيام
- آسف، أنا صامتة، جدتي تتحدث عبر الهاتف وصوتها عالٍ
- لأن الميكروفون الخاص بي كان معطلاً
بعد العثور على هذه التفسيرات، يمكننا تلخيصها في بعض الأسباب الرئيسية:
- وجود حاجز مادي (ميكروفون مكسور، صعوبة في التحدث، مرض، إلخ)،
- انشغالهم بفعل شيء آخر (الأكل، في العمل، إلخ)،
- بيئتهم صاخبة جدًا أو يحتاجون إلى الهدوء، أو
- لأنه مريح ويحبون استخدامه.
ولكن بغض النظر عن السبب الدقيق لاستخدامهم لخدمة TTS، أعرب العديد من المستخدمين عن سعادتهم بقدرتهم على المشاركة في محادثات القنوات الصوتية عندما لا يتمكنون من ذلك بخلاف ذلك. نعتقد أن خدمة TTS تجعل قنوات Discord الصوتية أكثر سهولة، وهذا هو السبب الرئيسي الذي يجعل مستخدمينا المنتظمين يواصلون استخدام الخدمة.
استخدام اللغة
أحد الأشياء التي لفتت انتباهي أثناء مراجعة المحادثات هو أن العديد من المستخدمين حاولوا استخدام أمر تحويل النص إلى كلام بلغات مختلفة. بينما أراد بعض المستخدمين فقط معرفة ما إذا كان سيعمل أو اعتقدوا أن النطق كان مضحكًا، استمر آخرون، مع ذلك، في استخدام TTS بلغات غير الإنجليزية لفترات طويلة من الزمن!

مستخدم يختبر النطق الإسباني لنموذج SeaVoice TTS الإنجليزي.
كان هذا هو الحال بشكل خاص مع المتحدثين باللغة الإسبانية على الرغم من أن (كما يلاحظ المستخدم أعلاه) أداء TTS ليس جيدًا للغة الإسبانية، حيث يتم تدريب النموذج فقط على اللغة الإنجليزية. بدأت في تدوين كل مرة صادفت فيها مستخدمًا يحاول استخدام أمر TTS بلغة أخرى غير الإنجليزية.

عدد محاولات إرسال طلبات غير إنجليزية إلى TTS.
يوضح الجدول أعلاه عدد كل محادثة وجدتها تحتوي على مثال واحد على الأقل لشخص يستخدم اللغة المقابلة في أمر TTS. من الواضح أن اللغة الإسبانية هي الأكثر شيوعًا إلى حد بعيد، وبالاقتران مع حقيقة أن العديد من المستخدمين استمروا في استخدام وظيفة TTS باللغة الإسبانية على الرغم من ضعف الأداء، يجعلني أتساءل عما إذا لم يكن هناك بديل قابل للتطبيق موجود بالفعل على Discord لـ TTS الإسباني. في كلتا الحالتين، يحاول الأشخاص استخدام خدمة TTS الخاصة بنا للغات أخرى، حتى نتمكن من تتبع اللغات الأكثر طلبًا واستخدام هذه البيانات لإبلاغ تدريب نماذجنا الجديدة.
تعليق حول البوت
موضوع آخر مثير للاهتمام تم العثور عليه في السجلات هو التعليق حول البوت نفسه. لحسن الحظ، رأينا العديد من التعليقات الإيجابية للغاية حول البوت وأدائه.

مستخدم يعلق بأن البوت يجعله يشعر بمزيد من الاندماج.
كانت أكثر التعليقات المؤثرة من أولئك الذين شعروا بالاستبعاد من القنوات الصوتية، ولكنهم الآن قادرون على المشاركة بفضل إمكانية الوصول الإضافية التي يوفرها البوت.
وجدنا أيضًا بعض الملاحظات البناءة.

مستخدم يعلق بأن سرعة TTS تمثل مشكلة.
ذكر أحد المستخدمين أنه نظرًا لأن المستخدمين سيحتاجون أولاً إلى كتابة الجملة بأكملها ثم إرسالها، فإن TTS أبطأ من التحدث العادي، لذلك في بعض الأحيان يتم نطق كلامهم TTS متأخرًا قليلاً في المحادثة. كما ذكرنا في القسم السابق، رأينا أيضًا طلبات للحصول على دعم لغوي إضافي بالإضافة إلى مستخدم واحد كان يأمل في أن يتمكن من الترجمة بين اللغات باستخدام البوت. سيساعدنا مراقبة هذا النوع من الملاحظات في التخطيط وتحسين الميزات في المستقبل.
حداثة
بعد تصفح المجموعة الكاملة من أوامر TTS، أود أن أقول إن حوالي ثلثي الأقوال تستخدم في المحادثات العامة مع الأصدقاء والأشخاص الآخرين في الخادم. معظم الناس يلعبون الألعاب ويتحدثون مع أصدقائهم، وهؤلاء المستخدمون يميلون إلى استخدام خدمة TTS بانتظام. من ناحية أخرى، يندرج الثلث المتبقي من الأقوال في فئة “مجرد العبث”. عندما تُمنح قوة كاملة لجعل صوت يقول ما تريد، أعتقد أن من طبيعة الإنسان اختيار أغبى أو أكثر الأشياء الفاحشة التي يمكنك التفكير فيها لمجرد الضحك. أتذكر أنني كنت أجلس في معمل الكمبيوتر بالمدرسة الابتدائية وأستمتع لساعات طويلة بـ Microsoft Sam (كانت تقنية عالية جدًا في ذلك الوقت)، لأرى ما إذا كان بإمكاننا جعله يقول أشياء مثل “براز” أو “مؤخرة”. حسنًا، أفترض أن الأطفال مثلي كبروا، واكتسبوا مفردات أكثر ثراءً، وانتهى بهم الأمر إلى العثور على نفس الترفيه مع خدمة TTS الخاصة بنا على Discord.

أمثلة على طلبات TTS الغريبة التي أرسلها المستخدمون.
في بعض الأحيان، يحاول المستخدمون فقط كسر البوت عن طريق كتابة أشياء مثل: سلاسل طويلة بشكل مفرط، أحرف خاصة، رموز تعبيرية، عناوين URL، إلخ. هذا مثال كلاسيكي على اختبار الأشخاص لحدود البرنامج، ويساعدنا بالفعل على التأكد من أن خدماتنا قوية ويمكنها التعامل مع أي إدخال يلقيه المستخدمون عليها.
في أحيان أخرى، يجد المستخدمون الترفيه من خلال جعل خدمة TTS تقول أكثر الأشياء الفاحشة والمسيئة التي يمكنهم ابتكارها. في سجلات TTS، أعتقد أنني رأيت كل كلمة بذيئة أعرفها (وربما بعض الكلمات التي لم أسمعها من قبل)، وشتائم عنصرية، ومحتوى جنسي صريح.
مسألة الأخلاق
لسوء الحظ، هناك العديد من الطرق التي يمكن من خلالها استخدام تطبيق تحويل النص إلى كلام بشكل غير مقبول: مثل الترويج لخطاب الكراهية أو التنمر الإلكتروني. بالإضافة إلى ذلك، بينما يتم تركيب المقاطع الصوتية من نموذج، فإن البيانات لتدريب النموذج تأتي من شخص حقيقي، ويمكن أن يبدو الإخراج من نموذج جيد غير قابل للتمييز تقريبًا عن الأصل.
لذا فإن هذه النقاط، بالإضافة إلى كيفية رؤيتنا للمستخدمين الحقيقيين يستخدمون (أو يسيئون استخدام) خدمة TTS الخاصة بنا، تثير بعض الأسئلة المهمة جدًا لـ Seasalt.ai كشركة وبوت Discord SeaVoice:
- هل نريد كشركة أن يتم استخدام منتجنا بطرق قد تكون مسيئة أو ضارة؟
- ما هي حقوق ممثلي الصوت في كيفية استخدام أصواتهم في تطبيقات تحويل النص إلى كلام؟
- هل لدينا الحق أو المسؤولية في فرض رقابة على كيفية استخدام خدمتنا؟
لا يمكن الإجابة على هذه الأسئلة، أو حتى استكشافها بالكامل، في منشور مدونة واحد. ومع ذلك، تشعر الشركة بالتزام بمواصلة النظر في هذه القضايا بينما نمضي قدمًا في مشروع Discord الخاص بنا ونواصل العمل مع ممثلي الصوت لدينا.
شكرًا لاهتمامك بمشروعي بوت Discord والذكاء الصوتي! يمكنك معرفة المزيد عن منتج STT الخاص بنا على صفحتنا الرئيسية لتحويل الكلام إلى نص. للحصول على عرض توضيحي فردي لأي من منتجات الذكاء الصوتي لدينا، املأ نموذج حجز عرض توضيحي.
على جانب Discord، يمكنك معرفة المزيد عن البوت الخاص بنا وإضافته إلى خادمك من ويكي بوت Discord SeaVoice. لا تتردد أيضًا في الانضمام إلى خادم Discord SeaVoice الرسمي الخاص بنا.