پس از راهاندازی SeaVoice، یکی از سریعترین و دقیقترین رباتهای تبدیل متن به گفتار و گفتار به متن در دیسکورد، میخواستیم بفهمیم که کاربران واقعاً چگونه با این خدمات تعامل دارند. در این وبلاگ، یافتههای خود را پس از بررسی چندین هفته دادههای واقعی گفتار به متن کاربران، مورد بحث قرار خواهیم داد.
SeaVoice: ربات دیسکورد تبدیل متن به گفتار و گفتار به متن
دیسکورد، به عنوان پلتفرمی که عمدتاً برای ترکیبی از چت صوتی و متنی استفاده میشود، یک زمین آزمایش فوقالعاده برای خدمات هوش صوتی و پردازش زبان طبیعی است. ما ربات SeaVoice را که مجهز به دستورات تبدیل متن به گفتار و گفتار به متن بود، در آگوست 2022 در دیسکورد مستقر کردیم. برای کسب اطلاعات بیشتر در مورد نحوه عملکرد ربات، یا مشاهده یک ویدیوی کوتاه، میتوانید از ویکی ربات SeaVoice بازدید کنید. در نوامبر همان سال، ما نسخه جدیدی را با بهبودهای قابل توجهی در بکاند منتشر کردیم (همانطور که در پست وبلاگ ما توضیح داده شده است: ربات دیسکورد SeaVoice: بهبودهای بکاند و پایداری) که به ما امکان میدهد دادههای ناشناس را در مورد نحوه تعامل کاربران با ربات SeaVoice ثبت کنیم. در وبلاگ قبلی ما (مطالعه موردی ربات دیسکورد TTS) ما دادههای کاربر 1 ماهه را از دستور تبدیل متن به گفتار تجزیه و تحلیل کردیم. در ادامه، در این پست به بررسی دادههای کاربر گفتار به متن حدود 3 هفته خواهیم پرداخت.
استفاده از STT SeaVoice
در زمان نگارش این مقاله، ربات SeaVoice به تقریباً 900 سرور اضافه شده است! حدود 260 سرور با مجموع بیش از 600 شرکتکننده، حداقل یک بار دستور STT را امتحان کردهاند. در 3 هفته گذشته، ما تقریباً 1800 جلسه STT را میزبانی کردهایم و در مجموع بیش از نیم میلیون خط رونویسی تولید کردهایم.

جلسات روزانه گفتار به متن ربات دیسکورد SeaVoice در طول 3 هفته.
اگر به تعداد کل جلسات STT در روز نگاه کنیم، متوجه شدیم که این تعداد میتواند از 40 تا بیش از 140 (با میانگین حدود 70) متغیر باشد. همچنین میتوانیم تعداد کل خطوط رونویسی را که تولید میکنیم، در نظر بگیریم. در کندترین روز، ما تنها 10 هزار خط تولید میکنیم، با این حال، در یک روز شلوغ، ما بیش از 40 هزار خط تولید کردهایم. برای درک بهتر، در 18 ژانویه، ما 102 جلسه STT را با مجموع کمی کمتر از 30 هزار خط رونویسی میزبانی کردیم؛ این تقریباً 40 ساعت زمان ضبط بود.
ما همچنین دریافتیم که در حالی که بیشتر جلسات برای مکالمات کوتاهتر استفاده میشوند (میانگین 57 خط در هر جلسه)، تعداد قابل توجهی از جلسات بسیار طولانی وجود دارد که میانگین را به 650 خط در هر جلسه میرساند. طولانیترین جلسه ما بیش از 30 هزار خط بود، یعنی بیش از یک روز کاری متوسط! در نهایت، ما همچنین بررسی کردیم که چند کاربر در هر جلسه حضور دارند و دریافتیم که معمولاً 4 تا 5 کاربر در هر جلسه حضور دارند - با این حال، یک بار از ربات برای پشتیبانی از رونویسی زنده در یک سمینار مجازی استفاده کردیم که 45 شرکتکننده داشت!

خطوط رونویسی شده توسط ربات دیسکورد SeaVoice در روز در طول 3 هفته.
در حالی که اکثر سرورها بیش از چند بار از جلسه STT استفاده نکردهاند، تعداد قابل توجهی از آنها به طور گسترده از این سرویس استفاده میکنند. از زمانی که ما شروع به ثبت دادههای استفاده از STT در اواخر دسامبر کردیم، میانگین کل جلسات در هر سرور حدود 7 است؛ با این حال، سرور شماره 1 ما 131 جلسه را ثبت کرده است - این به طور متوسط بیش از 6 جلسه در روز است! همان سرور در عرض 3 هفته بیش از 150 هزار خط گفتار را رونویسی کرده است! شاید از آن هم چشمگیرتر، کاربر شماره 1 ما از همان سرور است و بیش از 60 هزار خط از گفتار خودش را رونویسی کرده است!
مشاهدات
چرا مردم از گفتار به متن استفاده می کنند

یک کاربر ربات دیسکورد SeaVoice هیجان خود را در مورد فایلهای صوتی و رونویسی دائمی ابراز میکند.
بنابراین اولین سوال ما پس از مشاهده دادههای استفاده این است: چرا کاربران مکرر از گفتار به متن استفاده میکنند؟
ما پایگاه داده را برای یافتن برخی توضیحات بررسی کردیم. با این حال، یافتن توضیحات مشخصی در مورد اینکه چرا کاربران از سرویس STT به جای سرویس TTS استفاده میکردند، دشوارتر بود. ظاهراً مردم احساس میکنند که باید به دیگران در چت توضیح دهند که چرا از TTS استفاده میکنند، اما در مورد STT کمتر اینگونه است. با این وجود، من چند رونویسی جالب پیدا کردم که بینشی در مورد اینکه چرا کاربران تصمیم به استفاده از سرویس STT میگیرند، ارائه داد.
چرا کاربران از STT استفاده میکنند:
- «به همین دلیل است که از رونویسی استفاده میشود، زیرا میتوانم چیزهایی را که از دست دادهام ببینم.»
- «[کاربر] کمشنوا است، بنابراین رباتی دارد که آن را رونویسی میکند.»
- «[کاربر] با آنها حمله میکند و آنها از آن برای رونویسی چیزها استفاده میکنند، اما بعد [کاربر] گفت، اوه، ما میتوانیم از آن برای ******* D و D هم استفاده کنیم.»
- «نمیتوانم صبر کنم تا بعداً برگردم و برخی از این رونویسیها را بخوانم […] میخواهم دوباره به آن ضبط گوش دهم و آن رونویسی را دوباره ببینم.»
- «اگر جلساتمان را اینجا برگزار کنیم، میتوانیم رونویسی جلسه را به هوش مصنوعی بدهیم.»
- «در طول جلسه با افراد، دیدن یک رونویسی واقعاً عالی است.»
- «[افرادی] که در چت نیستند یا افرادی که در جامعه هستند، اما بخشی از چت صوتی نیستند، اما تصمیم میگیرند نگاه کنند و بخوانند.»
بنابراین به طور کلی، به نظر میرسد که اکثر کاربران از راحتی داشتن یک رونویسی زنده لذت میبرند که میتواند به آنها کمک کند تا مکالمه را پیگیری کنند و هر شکافی را که از دست دادهاند پر کنند. این امر به ویژه برای کاربرانی که دارای اختلال شنوایی یا مشکلات صوتی/اتصال هستند، صادق است. برای برخی از کاربران، بزرگترین مزیت، نگهداری یک رکورد صوتی و متنی دائمی از مکالمه آنها است؛ این امر میتواند به ویژه برای موارد استفاده مانند نگهداری گزارش جلسات Dungeons & Dragons یا نگهداری سوابق جلسات مهم کاربرد داشته باشد.
از آنجایی که بسیاری از کاربران به صراحت نگفتند که چرا از سرویس STT استفاده میکنند، به نظر میرسید که درک اینکه آنها هنگام استفاده از ربات چه کاری انجام میدادند نیز مفید است. بررسی رونویسیهای کاربران به من سرنخهایی در مورد فعالیتهایی که آنها هنگام رونویسی انجام میدادند، داد:
کاربران هنگام استفاده از STT چه کاری انجام میدهند:
- فقط چت کردن
- بازی:
- بازیهای معمولی
- بازیهای پیشرفته (مثلاً هماهنگی گروهی MMO، Massive Multiplayer Online، حملات)
- بازیهای نقشآفرینی (Dungeons & Dragons)
- پخش زنده / ضبط محتوا
- بحث در مورد کار مدرسه / حرفهای / داوطلبانه
اکثر رونویسیها در دستههای «فقط چت کردن» و «بازیهای معمولی» قرار میگیرند. همانطور که در بالا دیدیم، فکر میکنم اکثر کاربران در این مورد از ربات برای بهبود دسترسی به کانال صوتی دیسکورد و/یا لذت بردن از راحتی دیدن رونویسی زنده برای پر کردن هر شکافی که در مکالمه از دست دادهاند، استفاده میکنند. در برخی موارد (مانند زمانی که برای حملات MMO استفاده میشود)، بحثهای بازی بسیار پیچیده هستند و کاربران در زمان واقعی با یکدیگر هماهنگ میشوند؛ رونویسیهای زنده میتوانند برای موفقیت تیم بسیار مفید باشند، زیرا کاربران میتوانند هنگام بازی به رونویسیها مراجعه کنند.

نمونهای از بحث پیچیده در طول حمله MMO.
به نظر میرسد که بسیاری از کاربران از ربات برای رونویسی مکالمات جدیتر مانند جلسات مدرسه، حرفهای و/یا جامعه داوطلبانه استفاده میکنند. ما همچنین از ربات خود برای رونویسی یک کنفرانس فناوری آنلاین، UnTechCon استفاده کردیم. در این موارد، فایلهای ضبط و رونویسی نهایی ممکن است برای کاربران برای بررسی پس از جلسه بسیار مفید باشد. آخرین مثال جالبی که پیدا کردم، کاربری بود که محتوا را برای پخش زنده خود ضبط میکرد. از آنجایی که رونویسی نهایی دارای برچسبهای زمانی است، کاربران میتوانند فایل رونویسی را به عنوان زیرنویس برای محتوای صوتی یا تصویری ضبط شده خود آپلود کنند.

یک کاربر SeaVoice از اینکه کانالهای صوتی دیسکورد را قابل دسترستر کرده است، تشکر میکند.
اما صرف نظر از دلیل دقیق استفاده آنها از سرویس STT، بسیاری از کاربران هیجان خود را ابراز کردند که میتوانند در مکالمات کانال صوتی شرکت کنند، در حالی که در غیر این صورت نمیتوانستند. ما معتقدیم که سرویس STT کانالهای صوتی دیسکورد را قابل دسترستر میکند، و این دلیل اصلی است که کاربران عادی ما همچنان از این سرویس استفاده میکنند.
نظرات در مورد ربات دیسکورد SeaVoice
یکی دیگر از موضوعات جالبی که در گزارشها یافت شد، نظرات در مورد خود ربات بود. خوشبختانه، ما چندین نظر بسیار مثبت در مورد ربات و عملکرد آن مشاهده کردیم.

یک کاربر SeaVoice در مورد دقت رونویسی نظر میدهد.
ما همچنین چند بازخورد سازنده پیدا کردیم.

یک کاربر SeaVoice بهبود لهجههای بریتانیایی را پیشنهاد میکند.

یک کاربر عملکرد SeaVoice را در انگلیسی لهجهدار با سیری مقایسه میکند.
بیشتر نظرات سازنده مربوط به عملکرد ضعیف ربات در انگلیسی با لهجه غیرآمریکایی بود؛ به ویژه کاربران به لهجههای بریتانیایی و اسکاتلندی اشاره کردند. برای آینده خدمات STT ما، میتوانیم تلاش قابل توجهی برای بهبود تشخیص گفتار خود برای لهجههای مختلف انگلیسی انجام دهیم. البته، انگلیسی تنها زبانی نیست که کاربران ما صحبت میکنند، بنابراین ما همچنین قصد داریم پشتیبانی زبان بیشتری را به ربات اضافه کنیم. در واقع، ما در حال حاضر در حال نهایی کردن ادغامهای STT و TTS ماندارین تایوانی خود هستیم و به زودی نسخه بهروز شده ربات را منتشر خواهیم کرد.
حریم خصوصی، حساسیت دادهها و محتوای بالقوه توهینآمیز
توسعه هوش مصنوعی با سیل عظیمی از معضلات اخلاقی احاطه شده است. مدلهای ما برای عملکرد خوب به مقادیر زیادی از دادههای واقعی کاربر نیاز دارند، اما چگونه میتوانیم این دادهها را به صورت اخلاقی و با احترام به حریم خصوصی کاربرانمان جمعآوری کنیم؟ مدلها فقط بر اساس دادههایی که به آنها ارائه میشود یاد میگیرند و بنابراین دارای سوگیریهای (احتمالاً پیشبینی نشده) هستند؛ پس چگونه میتوانیم اطمینان حاصل کنیم که مدلهای ما به همه کاربرانمان به یک اندازه خوب خدمت میکنند؟ علاوه بر این، مدلهای ما هیچ مفهومی از مقبولیت اجتماعی ندارند و ممکن است نتایجی تولید کنند که برخی از کاربران آن را توهینآمیز بدانند. همانطور که یکی از کاربران ما به طور فصیح بیان کرد: «آیا اگر ربات این کار را انجام دهد، نژادپرستانه است، این سوال است».

یک کاربر SeaVoice به یک رونویسی نادرست مشکلساز اشاره میکند.
دلیل اینکه من این نکات را مطرح میکنم، به دلیل چند رونویسی نگرانکننده در گزارشها است. اولین مشکل این است که ربات گهگاه محتوای توهینآمیز را رونویسی میکند. در مثال بالا، ربات به طور تصادفی نام کاربری شخصی را به عنوان یک توهین نژادی رونویسی کرد. بدیهی است که این یک خطا در سمت ربات است که ممکن است برای کاربران ما توهینآمیز باشد و باید بررسی شود. اما این به سوالات بیشتری منجر میشود: کجا باید مرز بین توهین و آسیب را ترسیم کنیم؟

یک کاربر SeaVoice در مورد تلاش برای سانسور کلمات خاصی از رونویسی نظر میدهد.
خب، برای شروع تصمیم گرفتیم این قدرت را به کاربران بدهیم. یکی از ویژگیهای بعدی که روی آن کار خواهیم کرد، سانسور قابل تنظیم TTS و STT است. این به سرورها اجازه میدهد تا به صورت اختیاری سانسورهایی را برای کلمات رکیک، محتوای جنسی، توهینهای نژادی و غیره اعمال کنند.

یک کاربر SeaVoice به شرکتکننده دیگری هشدار میدهد که مراقب باشد آنچه میگوید در رونویسی ظاهر خواهد شد.
جالب اینجاست که یکی دیگر از مسائل مرتبطی که مشاهده کردیم، خودسانسوری کاربران برای جلوگیری از ظاهر شدن برخی موارد در رونویسی بود. این امر به طرز شگفتآوری رایج بود، و من موارد زیادی را دیدم که کاربران توضیح دادند که نمیخواهند ربات آنچه را که قرار است بگویند رونویسی کند، بنابراین آنها متوقف شدند و سپس STT را دوباره راهاندازی کردند. این یک نگرانی کاملاً معتبر از سوی کاربر است، اگر برای مثال نمیخواهند ربات اطلاعات حساسی را رونویسی کند.

نحوه توقف STT با ناشنوا کردن ربات.
من مطمئن نیستم که راهی برای بهبود تجربه کاربری در این مورد وجود دارد یا خیر، اما به کاربران توصیه میکنم که میتوانند ربات را به طور موقت «ناشنوا» کنند تا از ارسال هرگونه صدا به ربات جلوگیری شود. در این صورت، ربات هیچ داده صوتی دریافت نخواهد کرد تا زمانی که «ناشنوا» شود، بنابراین کاربر میتواند اساساً جلسه STT را بدون توقف و شروع یک جلسه جدید متوقف کند.

یک کاربر SeaVoice در مورد ناراحتی شرکتکننده دیگری از ربات نظر میدهد.
در نهایت، آخرین مشکلی که مشاهده کردیم این است که برخی از کاربران از رونویسی ربات آنقدر ناراحت هستند که در حضور ربات، فعالانه از صحبت کردن در کانال صوتی خودداری میکنند. این کاملاً برعکس هدف ما است، که این است که کانالهای صوتی دیسکورد را برای همه قابل دسترستر کنیم. در حالی که ما امیدواریم کاربران سیاست حفظ حریم خصوصی ما را بپذیرند و به ما اعتماد کنند که از دادههای آنها مسئولانه استفاده کنیم، ما مطلقاً به حق حریم خصوصی همه احترام میگذاریم. بنابراین، ویژگی بعدی که ما پیادهسازی خواهیم کرد، تنظیمات انصراف از STT است. این به هر کاربری اجازه میدهد تا خود را از ضبط و رونویسی STT مستثنی کند، و دادههای صوتی آنها به هیچ وجه توسط ربات قابل دسترسی یا جمعآوری نخواهد بود.
ما امیدواریم که این ویژگیهای برنامهریزی شده به ما امکان دهد تا کانالهای صوتی را برای همه قابل دسترستر کنیم، در حالی که به کاربران این امکان را میدهیم که با ربات SeaVoice در سطحی که راحت هستند، تعامل داشته باشند. در آینده، ما به تلاش خود برای حل فعالانه این مسائل چالشبرانگیز ادامه خواهیم داد تا SeaVoice را به بهترین شکل ممکن تبدیل کنیم!
از علاقه شما به ربات دیسکورد ما و از کاربرانمان برای حمایت مداوم شما سپاسگزاریم! میتوانید اطلاعات بیشتری در مورد محصول STT ما در صفحه اصلی گفتار به متن SeaVoice ما کسب کنید. برای یک دموی یک به یک از هر یک از محصولات هوش صوتی ما، فرم رزرو دمو را پر کنید.
اگر هنوز ربات SeaVoice را امتحان نکردهاید، میتوانید اطلاعات بیشتری در مورد ربات ما کسب کنید و آن را از ویکی ربات دیسکورد SeaVoice به سرور خود اضافه کنید. همچنین میتوانید به سرور رسمی دیسکورد SeaVoice ما بپیوندید.