Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
تبدیل متن به گفتار در Discord: مطالعه موردی ربات TTS Discord

تبدیل متن به گفتار در Discord: مطالعه موردی ربات TTS Discord

در این وبلاگ، ما یافته‌های خود را در مورد نحوه استفاده کاربران واقعی Discord از خدمات ما پس از بررسی چندین ماه از داده‌های معتبر تبدیل متن به گفتار مورد بحث قرار خواهیم داد.

SeaVoice Discord

پس از راه‌اندازی SeaVoice، یکی از سریع‌ترین و دقیق‌ترین ربات‌های تبدیل متن به گفتار و گفتار به متن در Discord، ما می‌خواستیم بفهمیم که کاربران واقعاً چگونه با این خدمات تعامل دارند. در این وبلاگ، ما یافته‌های خود را پس از بررسی چندین ماه از داده‌های واقعی کاربران تبدیل متن به گفتار مورد بحث قرار خواهیم داد.

SeaVoice: ربات Discord تبدیل متن به گفتار و گفتار به متن

Discord، به عنوان پلتفرمی که عمدتاً برای ترکیبی از چت صوتی و متنی استفاده می‌شود، یک زمین آزمایش فوق‌العاده برای خدمات هوش صوتی و پردازش زبان طبیعی است. ما ربات SeaVoice را که مجهز به دستورات تبدیل متن به گفتار و گفتار به متن بود، در آگوست 2022 در Discord مستقر کردیم. برای کسب اطلاعات بیشتر در مورد نحوه عملکرد ربات، یا مشاهده یک ویدیوی کوتاه، می‌توانید از ویکی ربات Discord SeaVoice بازدید کنید. در نوامبر همان سال، ما نسخه جدیدی را با بهبودهای قابل توجه در بک‌اند منتشر کردیم (همانطور که در پست وبلاگ قبلی ما توضیح داده شد: ربات Discord SeaVoice: بهبودهای بک‌اند و پایداری) که به ما امکان می‌دهد داده‌های ناشناس را در مورد نحوه تعامل کاربران با ربات SeaVoice ثبت کنیم. در این وبلاگ، ما به داده‌های کاربران یک ماه از دستور تبدیل متن به گفتار نگاه خواهیم کرد.

استفاده از SeaVoice TTS

استفاده روزانه از تبدیل متن به گفتار ربات Discord SeaVoice در طول 7 هفته.

استفاده روزانه از تبدیل متن به گفتار ربات Discord SeaVoice در طول 7 هفته.

در زمان نگارش این مقاله، ربات SeaVoice به تقریباً 800 سرور اضافه شده است! از زمانی که ما در نوامبر شروع به ثبت داده‌های استفاده کردیم، متوجه شدیم که تعداد کل درخواست‌ها در روز می‌تواند از 150 تا بیش از 1300 (با میانگین حدود 560) متغیر باشد. حدود 650 کاربر حداقل یک بار دستور TTS را امتحان کرده‌اند. با این حال، اکثر کاربران پس از امتحان کردن، به طور منظم از آن استفاده نمی‌کنند. از بین 650 کاربری که دستور TTS را امتحان کردند، حدود 200 نفر 20 بار یا بیشتر از آن استفاده کردند و تنها 100 نفر 50 بار یا بیشتر از آن استفاده کردند. با این حال، کسانی که از دستور TTS لذت می‌برند و به آن تکیه می‌کنند، از آن به طور گسترده استفاده می‌کنند! 5 کاربر برتر ما در دو ماه گذشته بیش از 1000 درخواست ارسال کرده‌اند و کاربر برتر به تنهایی نزدیک به 2500 درخواست ارسال کرده است!

مشاهدات

چرا مردم از تبدیل متن به گفتار استفاده می‌کنند

دلایل استفاده کاربران ربات Discord SeaVoice از تبدیل متن به گفتار.

دلایل استفاده کاربران ربات Discord SeaVoice از تبدیل متن به گفتار.

بنابراین اولین سوال ما پس از مشاهده داده‌های استفاده این است: چرا کاربران مکرر از TTS استفاده می‌کنند؟ ما پایگاه داده را برای یافتن برخی توضیحات بررسی کردیم. در ادامه دستورات TTS واقعی از برخی کاربران ما آورده شده است.

چرا صحبت نمی‌کنی؟

- همچنین نمی‌توانم صحبت کنم چون دارم غذا می‌خورم
- من واقعاً صحبت می‌کردم، اما در حال حاضر سر کار هستم.
- اگر صحبت کنم، خانواده‌ام را بیدار می‌کنم
- متاسفم، زیاد صحبت نمی‌کنم. گلوم خیلی درد می‌کنه.
- می‌توانستم صحبت کنم اما مادرم اینجاست
- امروز خیلی تنبلم که صحبت کنم
- نمی‌توانم صحبت کنم چون مریضم اما به هر حال می‌خواستم بیایم :)
- کاملاً بی‌صدا نیست، فقط صحبت کردن نیاز به تلاش دارد. بعضی روزها تلاش زیادی
- متاسفم، من بی‌صدا هستم، مادربزرگم تلفنی صحبت می‌کند و صدای او بلند است
- چون میکروفونم خراب بود

پس از یافتن این توضیحات، می‌توانیم آنها را به چند دلیل اصلی خلاصه کنیم:

  • وجود مانع فیزیکی (میکروفون خراب، مشکل در صحبت کردن، بیماری و غیره)،
  • مشغول انجام کار دیگری هستند (غذا خوردن، سر کار بودن و غیره)،
  • محیط آنها خیلی پر سر و صدا است یا باید ساکت باشند، یا
  • چون راحت است و دوست دارند از آن استفاده کنند.

اما صرف نظر از دلیل دقیق استفاده آنها از سرویس TTS، بسیاری از کاربران از اینکه می‌توانستند در مکالمات کانال صوتی شرکت کنند، در حالی که در غیر این صورت نمی‌توانستند، ابراز هیجان کردند. ما معتقدیم که سرویس TTS کانال‌های صوتی Discord را قابل دسترس‌تر می‌کند، و این دلیل اصلی است که کاربران عادی ما همچنان از این سرویس استفاده می‌کنند.

استفاده از زبان

یکی از مواردی که هنگام بررسی مکالمات به چشمم خورد، این بود که بسیاری از کاربران سعی کردند از دستور تبدیل متن به گفتار با زبان‌های مختلف استفاده کنند. در حالی که برخی از کاربران فقط می‌خواستند ببینند که آیا کار می‌کند یا فکر می‌کردند تلفظ خنده‌دار است، اما برخی دیگر، با این حال، به استفاده از TTS در زبان‌های غیر انگلیسی برای مدت طولانی ادامه دادند!

کاربر تلفظ اسپانیایی مدل TTS انگلیسی SeaVoice را آزمایش می‌کند.

کاربر تلفظ اسپانیایی مدل TTS انگلیسی SeaVoice را آزمایش می‌کند.

این امر به ویژه در مورد اسپانیایی‌زبانان صادق بود، اگرچه (همانطور که کاربر بالا اشاره می‌کند) عملکرد TTS برای اسپانیایی خوب نیست، زیرا مدل فقط روی انگلیسی آموزش دیده است. من هر بار که با کاربری مواجه می‌شدم که سعی می‌کرد از دستور TTS در زبانی غیر از انگلیسی استفاده کند، یادداشت برداری می‌کردم.

تعداد تلاش‌ها برای ارسال درخواست‌های غیر انگلیسی به TTS.

تعداد تلاش‌ها برای ارسال درخواست‌های غیر انگلیسی به TTS.

جدول بالا تعداد هر مکالمه‌ای را که من پیدا کردم و حداقل یک نمونه از استفاده کسی از زبان مربوطه در دستور TTS را نشان می‌دهد. بدیهی است که اسپانیایی تا حد زیادی رایج‌ترین است، و همراه با این واقعیت که بسیاری از کاربران با وجود عملکرد ضعیف، همچنان از عملکرد TTS در اسپانیایی استفاده می‌کردند، باعث می‌شود که من تعجب کنم که آیا جایگزین مناسبی برای TTS اسپانیایی در Discord وجود ندارد. در هر صورت، مردم در تلاشند تا از سرویس TTS ما برای زبان‌های دیگر استفاده کنند، بنابراین می‌توانیم پیگیری کنیم که کدام زبان‌ها بیشترین تقاضا را دارند و از این داده‌ها برای آموزش مدل‌های جدید خود استفاده کنیم.

نظر در مورد ربات

یکی دیگر از موضوعات جالب یافت شده در گزارش‌ها، نظرات در مورد خود ربات بود. خوشبختانه، ما چندین نظر بسیار مثبت در مورد ربات و عملکرد آن دیدیم.

کاربر نظر می‌دهد که ربات باعث می‌شود احساس کند بیشتر درگیر است.

کاربر نظر می‌دهد که ربات باعث می‌شود احساس کند بیشتر درگیر است.

تأثیرگذارترین نظرات از کسانی بود که احساس می‌کردند از کانال‌های صوتی محروم شده‌اند، اما اکنون به لطف دسترسی اضافی که ربات فراهم می‌کند، می‌توانند شرکت کنند.

ما همچنین چندین بازخورد سازنده پیدا کردیم.

کاربر نظر می‌دهد که سرعت TTS یک مشکل است.

کاربر نظر می‌دهد که سرعت TTS یک مشکل است.

یکی از کاربران اشاره کرد که چون کاربران ابتدا باید کل جمله را تایپ کرده و سپس آن را ارسال کنند، TTS کندتر از صحبت عادی است، بنابراین گاهی اوقات گفتار TTS آنها کمی دیر در مکالمه بیان می‌شود. همانطور که در بخش قبلی اشاره شد، ما همچنین درخواست‌هایی برای پشتیبانی زبان‌های اضافی و همچنین یک کاربر را دیدیم که امیدوار بود بتواند با استفاده از ربات بین زبان‌ها ترجمه کند. توجه به این نوع بازخورد به ما کمک می‌کند تا ویژگی‌های آینده را برنامه‌ریزی و بهبود بخشیم.

تازگی

پس از مرور کل مجموعه دستورات TTS، می‌توانم بگویم که حدود دو سوم از گفتارها در مکالمات عمومی با دوستان و سایر افراد در سرور استفاده می‌شوند. بیشتر مردم در حال بازی و فقط چت کردن با دوستان خود هستند، و این کاربران تمایل دارند که به طور منظم از سرویس TTS استفاده کنند. از طرف دیگر، یک سوم باقیمانده از گفتارها در دسته «فقط شوخی کردن» قرار می‌گیرند. وقتی به شما قدرت کامل داده می‌شود تا صدایی را به هر آنچه می‌خواهید بگویید، من معتقدم که طبیعت انسان است که احمقانه‌ترین یا زشت‌ترین چیزی را که می‌توانید تصور کنید فقط برای خنده انتخاب کنید. یادم می‌آید که در آزمایشگاه کامپیوتر مدرسه ابتدایی نشسته بودم و ساعت‌ها با مایکروسافت سم (در آن زمان بسیار پیشرفته بود) سرگرم می‌شدم و می‌دیدم که آیا می‌توانیم آن را وادار کنیم که چیزهایی مانند «مدفوع» یا «باسن» را بگوید. خب، فکر می‌کنم بچه‌هایی مثل من بزرگ شدند، واژگان غنی‌تری به دست آوردند و در نهایت با سرویس TTS ما در Discord همان سرگرمی را پیدا کردند.

نمونه‌هایی از درخواست‌های عجیب TTS ارسال شده توسط کاربران.

نمونه‌هایی از درخواست‌های عجیب TTS ارسال شده توسط کاربران.

گاهی اوقات کاربران فقط سعی می‌کنند با تایپ کردن چیزهایی مانند: رشته‌های بیش از حد طولانی، کاراکترهای خاص، ایموجی‌ها، URL‌ها و غیره، ربات را خراب کنند. این یک مثال کلاسیک از آزمایش محدودیت‌های نرم‌افزار توسط افراد است، و در واقع به ما کمک می‌کند تا اطمینان حاصل کنیم که خدمات ما قوی هستند و می‌توانند هر ورودی را که کاربران به آنها می‌دهند، مدیریت کنند.

در مواقع دیگر، کاربران با وادار کردن سرویس TTS به گفتن زشت‌ترین و توهین‌آمیزترین چیزهایی که می‌توانند به ذهنشان خطور کند، سرگرمی پیدا می‌کنند. در گزارش‌های TTS فکر می‌کنم هر کلمه رکیکی را که می‌شناسم (و شاید برخی را که قبلاً نشنیده بودم)، توهین‌های نژادی و محتوای جنسی صریح را دیدم.

مسئله اخلاق

متأسفانه، راه‌های زیادی وجود دارد که یک برنامه تبدیل متن به گفتار می‌تواند به طور ناخوشایندی مورد استفاده قرار گیرد: مانند ترویج سخنان نفرت‌انگیز یا قلدری سایبری. علاوه بر این، در حالی که کلیپ‌های صوتی از یک مدل سنتز می‌شوند، داده‌های آموزش مدل از یک شخص واقعی می‌آیند و خروجی یک مدل خوب می‌تواند تقریباً غیرقابل تشخیص از اصل باشد.

بنابراین این نکات، همراه با نحوه استفاده (یا سوء استفاده) کاربران واقعی از سرویس TTS ما، سؤالات بسیار مهمی را برای Seasalt.ai به عنوان یک شرکت و ربات Discord SeaVoice مطرح می‌کند:

  • آیا ما به عنوان یک شرکت می‌خواهیم محصولمان به روش‌های بالقوه توهین‌آمیز یا مضر استفاده شود؟
  • بازیگران صدا چه حقوقی در مورد نحوه استفاده از صدایشان در برنامه‌های تبدیل متن به گفتار دارند؟
  • آیا ما حق یا مسئولیت سانسور نحوه استفاده از خدماتمان را داریم؟

اینها سؤالاتی هستند که نمی‌توان در یک پست وبلاگ به آنها پاسخ داد یا حتی به طور کامل بررسی کرد. با این حال، شرکت احساس می‌کند که موظف است به طور مداوم این مسائل را در نظر بگیرد، زیرا ما پروژه Discord خود را پیش می‌بریم و به همکاری با بازیگران صدای خود ادامه می‌دهیم.

از علاقه شما به ربات Discord و پروژه‌های هوش صوتی ما متشکریم! می‌توانید اطلاعات بیشتری در مورد محصول STT ما در صفحه اصلی تبدیل گفتار به متن ما کسب کنید. برای یک دمو یک به یک از هر یک از محصولات هوش صوتی ما، فرم رزرو دمو را پر کنید.

در بخش Discord، می‌توانید اطلاعات بیشتری در مورد ربات ما کسب کنید و آن را از ویکی ربات Discord SeaVoice به سرور خود اضافه کنید. همچنین می‌توانید به سرور رسمی Discord SeaVoice ما بپیوندید.

Related Articles

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.