پس از راهاندازی SeaVoice، یکی از سریعترین و دقیقترین رباتهای تبدیل متن به گفتار و گفتار به متن در Discord، ما میخواستیم بفهمیم که کاربران واقعاً چگونه با این خدمات تعامل دارند. در این وبلاگ، ما یافتههای خود را پس از بررسی چندین ماه از دادههای واقعی کاربران تبدیل متن به گفتار مورد بحث قرار خواهیم داد.
SeaVoice: ربات Discord تبدیل متن به گفتار و گفتار به متن
Discord، به عنوان پلتفرمی که عمدتاً برای ترکیبی از چت صوتی و متنی استفاده میشود، یک زمین آزمایش فوقالعاده برای خدمات هوش صوتی و پردازش زبان طبیعی است. ما ربات SeaVoice را که مجهز به دستورات تبدیل متن به گفتار و گفتار به متن بود، در آگوست 2022 در Discord مستقر کردیم. برای کسب اطلاعات بیشتر در مورد نحوه عملکرد ربات، یا مشاهده یک ویدیوی کوتاه، میتوانید از ویکی ربات Discord SeaVoice بازدید کنید. در نوامبر همان سال، ما نسخه جدیدی را با بهبودهای قابل توجه در بکاند منتشر کردیم (همانطور که در پست وبلاگ قبلی ما توضیح داده شد: ربات Discord SeaVoice: بهبودهای بکاند و پایداری) که به ما امکان میدهد دادههای ناشناس را در مورد نحوه تعامل کاربران با ربات SeaVoice ثبت کنیم. در این وبلاگ، ما به دادههای کاربران یک ماه از دستور تبدیل متن به گفتار نگاه خواهیم کرد.
استفاده از SeaVoice TTS

استفاده روزانه از تبدیل متن به گفتار ربات Discord SeaVoice در طول 7 هفته.
در زمان نگارش این مقاله، ربات SeaVoice به تقریباً 800 سرور اضافه شده است! از زمانی که ما در نوامبر شروع به ثبت دادههای استفاده کردیم، متوجه شدیم که تعداد کل درخواستها در روز میتواند از 150 تا بیش از 1300 (با میانگین حدود 560) متغیر باشد. حدود 650 کاربر حداقل یک بار دستور TTS را امتحان کردهاند. با این حال، اکثر کاربران پس از امتحان کردن، به طور منظم از آن استفاده نمیکنند. از بین 650 کاربری که دستور TTS را امتحان کردند، حدود 200 نفر 20 بار یا بیشتر از آن استفاده کردند و تنها 100 نفر 50 بار یا بیشتر از آن استفاده کردند. با این حال، کسانی که از دستور TTS لذت میبرند و به آن تکیه میکنند، از آن به طور گسترده استفاده میکنند! 5 کاربر برتر ما در دو ماه گذشته بیش از 1000 درخواست ارسال کردهاند و کاربر برتر به تنهایی نزدیک به 2500 درخواست ارسال کرده است!
مشاهدات
چرا مردم از تبدیل متن به گفتار استفاده میکنند

دلایل استفاده کاربران ربات Discord SeaVoice از تبدیل متن به گفتار.
بنابراین اولین سوال ما پس از مشاهده دادههای استفاده این است: چرا کاربران مکرر از TTS استفاده میکنند؟ ما پایگاه داده را برای یافتن برخی توضیحات بررسی کردیم. در ادامه دستورات TTS واقعی از برخی کاربران ما آورده شده است.
چرا صحبت نمیکنی؟
- همچنین نمیتوانم صحبت کنم چون دارم غذا میخورم
- من واقعاً صحبت میکردم، اما در حال حاضر سر کار هستم.
- اگر صحبت کنم، خانوادهام را بیدار میکنم
- متاسفم، زیاد صحبت نمیکنم. گلوم خیلی درد میکنه.
- میتوانستم صحبت کنم اما مادرم اینجاست
- امروز خیلی تنبلم که صحبت کنم
- نمیتوانم صحبت کنم چون مریضم اما به هر حال میخواستم بیایم :)
- کاملاً بیصدا نیست، فقط صحبت کردن نیاز به تلاش دارد. بعضی روزها تلاش زیادی
- متاسفم، من بیصدا هستم، مادربزرگم تلفنی صحبت میکند و صدای او بلند است
- چون میکروفونم خراب بود
پس از یافتن این توضیحات، میتوانیم آنها را به چند دلیل اصلی خلاصه کنیم:
- وجود مانع فیزیکی (میکروفون خراب، مشکل در صحبت کردن، بیماری و غیره)،
- مشغول انجام کار دیگری هستند (غذا خوردن، سر کار بودن و غیره)،
- محیط آنها خیلی پر سر و صدا است یا باید ساکت باشند، یا
- چون راحت است و دوست دارند از آن استفاده کنند.
اما صرف نظر از دلیل دقیق استفاده آنها از سرویس TTS، بسیاری از کاربران از اینکه میتوانستند در مکالمات کانال صوتی شرکت کنند، در حالی که در غیر این صورت نمیتوانستند، ابراز هیجان کردند. ما معتقدیم که سرویس TTS کانالهای صوتی Discord را قابل دسترستر میکند، و این دلیل اصلی است که کاربران عادی ما همچنان از این سرویس استفاده میکنند.
استفاده از زبان
یکی از مواردی که هنگام بررسی مکالمات به چشمم خورد، این بود که بسیاری از کاربران سعی کردند از دستور تبدیل متن به گفتار با زبانهای مختلف استفاده کنند. در حالی که برخی از کاربران فقط میخواستند ببینند که آیا کار میکند یا فکر میکردند تلفظ خندهدار است، اما برخی دیگر، با این حال، به استفاده از TTS در زبانهای غیر انگلیسی برای مدت طولانی ادامه دادند!

کاربر تلفظ اسپانیایی مدل TTS انگلیسی SeaVoice را آزمایش میکند.
این امر به ویژه در مورد اسپانیاییزبانان صادق بود، اگرچه (همانطور که کاربر بالا اشاره میکند) عملکرد TTS برای اسپانیایی خوب نیست، زیرا مدل فقط روی انگلیسی آموزش دیده است. من هر بار که با کاربری مواجه میشدم که سعی میکرد از دستور TTS در زبانی غیر از انگلیسی استفاده کند، یادداشت برداری میکردم.

تعداد تلاشها برای ارسال درخواستهای غیر انگلیسی به TTS.
جدول بالا تعداد هر مکالمهای را که من پیدا کردم و حداقل یک نمونه از استفاده کسی از زبان مربوطه در دستور TTS را نشان میدهد. بدیهی است که اسپانیایی تا حد زیادی رایجترین است، و همراه با این واقعیت که بسیاری از کاربران با وجود عملکرد ضعیف، همچنان از عملکرد TTS در اسپانیایی استفاده میکردند، باعث میشود که من تعجب کنم که آیا جایگزین مناسبی برای TTS اسپانیایی در Discord وجود ندارد. در هر صورت، مردم در تلاشند تا از سرویس TTS ما برای زبانهای دیگر استفاده کنند، بنابراین میتوانیم پیگیری کنیم که کدام زبانها بیشترین تقاضا را دارند و از این دادهها برای آموزش مدلهای جدید خود استفاده کنیم.
نظر در مورد ربات
یکی دیگر از موضوعات جالب یافت شده در گزارشها، نظرات در مورد خود ربات بود. خوشبختانه، ما چندین نظر بسیار مثبت در مورد ربات و عملکرد آن دیدیم.

کاربر نظر میدهد که ربات باعث میشود احساس کند بیشتر درگیر است.
تأثیرگذارترین نظرات از کسانی بود که احساس میکردند از کانالهای صوتی محروم شدهاند، اما اکنون به لطف دسترسی اضافی که ربات فراهم میکند، میتوانند شرکت کنند.
ما همچنین چندین بازخورد سازنده پیدا کردیم.

کاربر نظر میدهد که سرعت TTS یک مشکل است.
یکی از کاربران اشاره کرد که چون کاربران ابتدا باید کل جمله را تایپ کرده و سپس آن را ارسال کنند، TTS کندتر از صحبت عادی است، بنابراین گاهی اوقات گفتار TTS آنها کمی دیر در مکالمه بیان میشود. همانطور که در بخش قبلی اشاره شد، ما همچنین درخواستهایی برای پشتیبانی زبانهای اضافی و همچنین یک کاربر را دیدیم که امیدوار بود بتواند با استفاده از ربات بین زبانها ترجمه کند. توجه به این نوع بازخورد به ما کمک میکند تا ویژگیهای آینده را برنامهریزی و بهبود بخشیم.
تازگی
پس از مرور کل مجموعه دستورات TTS، میتوانم بگویم که حدود دو سوم از گفتارها در مکالمات عمومی با دوستان و سایر افراد در سرور استفاده میشوند. بیشتر مردم در حال بازی و فقط چت کردن با دوستان خود هستند، و این کاربران تمایل دارند که به طور منظم از سرویس TTS استفاده کنند. از طرف دیگر، یک سوم باقیمانده از گفتارها در دسته «فقط شوخی کردن» قرار میگیرند. وقتی به شما قدرت کامل داده میشود تا صدایی را به هر آنچه میخواهید بگویید، من معتقدم که طبیعت انسان است که احمقانهترین یا زشتترین چیزی را که میتوانید تصور کنید فقط برای خنده انتخاب کنید. یادم میآید که در آزمایشگاه کامپیوتر مدرسه ابتدایی نشسته بودم و ساعتها با مایکروسافت سم (در آن زمان بسیار پیشرفته بود) سرگرم میشدم و میدیدم که آیا میتوانیم آن را وادار کنیم که چیزهایی مانند «مدفوع» یا «باسن» را بگوید. خب، فکر میکنم بچههایی مثل من بزرگ شدند، واژگان غنیتری به دست آوردند و در نهایت با سرویس TTS ما در Discord همان سرگرمی را پیدا کردند.

نمونههایی از درخواستهای عجیب TTS ارسال شده توسط کاربران.
گاهی اوقات کاربران فقط سعی میکنند با تایپ کردن چیزهایی مانند: رشتههای بیش از حد طولانی، کاراکترهای خاص، ایموجیها، URLها و غیره، ربات را خراب کنند. این یک مثال کلاسیک از آزمایش محدودیتهای نرمافزار توسط افراد است، و در واقع به ما کمک میکند تا اطمینان حاصل کنیم که خدمات ما قوی هستند و میتوانند هر ورودی را که کاربران به آنها میدهند، مدیریت کنند.
در مواقع دیگر، کاربران با وادار کردن سرویس TTS به گفتن زشتترین و توهینآمیزترین چیزهایی که میتوانند به ذهنشان خطور کند، سرگرمی پیدا میکنند. در گزارشهای TTS فکر میکنم هر کلمه رکیکی را که میشناسم (و شاید برخی را که قبلاً نشنیده بودم)، توهینهای نژادی و محتوای جنسی صریح را دیدم.
مسئله اخلاق
متأسفانه، راههای زیادی وجود دارد که یک برنامه تبدیل متن به گفتار میتواند به طور ناخوشایندی مورد استفاده قرار گیرد: مانند ترویج سخنان نفرتانگیز یا قلدری سایبری. علاوه بر این، در حالی که کلیپهای صوتی از یک مدل سنتز میشوند، دادههای آموزش مدل از یک شخص واقعی میآیند و خروجی یک مدل خوب میتواند تقریباً غیرقابل تشخیص از اصل باشد.
بنابراین این نکات، همراه با نحوه استفاده (یا سوء استفاده) کاربران واقعی از سرویس TTS ما، سؤالات بسیار مهمی را برای Seasalt.ai به عنوان یک شرکت و ربات Discord SeaVoice مطرح میکند:
- آیا ما به عنوان یک شرکت میخواهیم محصولمان به روشهای بالقوه توهینآمیز یا مضر استفاده شود؟
- بازیگران صدا چه حقوقی در مورد نحوه استفاده از صدایشان در برنامههای تبدیل متن به گفتار دارند؟
- آیا ما حق یا مسئولیت سانسور نحوه استفاده از خدماتمان را داریم؟
اینها سؤالاتی هستند که نمیتوان در یک پست وبلاگ به آنها پاسخ داد یا حتی به طور کامل بررسی کرد. با این حال، شرکت احساس میکند که موظف است به طور مداوم این مسائل را در نظر بگیرد، زیرا ما پروژه Discord خود را پیش میبریم و به همکاری با بازیگران صدای خود ادامه میدهیم.
از علاقه شما به ربات Discord و پروژههای هوش صوتی ما متشکریم! میتوانید اطلاعات بیشتری در مورد محصول STT ما در صفحه اصلی تبدیل گفتار به متن ما کسب کنید. برای یک دمو یک به یک از هر یک از محصولات هوش صوتی ما، فرم رزرو دمو را پر کنید.
در بخش Discord، میتوانید اطلاعات بیشتری در مورد ربات ما کسب کنید و آن را از ویکی ربات Discord SeaVoice به سرور خود اضافه کنید. همچنین میتوانید به سرور رسمی Discord SeaVoice ما بپیوندید.