پس از راه‌اندازی SeaVoice، یکی از سریع‌ترین و دقیق‌ترین ربات‌های تبدیل متن به گفتار و گفتار به متن در دیسکورد، می‌خواستیم بفهمیم که کاربران واقعاً چگونه با این خدمات تعامل دارند. در این وبلاگ، یافته‌های خود را پس از بررسی چندین هفته داده‌های واقعی گفتار به متن کاربران، مورد بحث قرار خواهیم داد.

SeaVoice: ربات دیسکورد تبدیل متن به گفتار و گفتار به متن

دیسکورد، به عنوان پلتفرمی که عمدتاً برای ترکیبی از چت صوتی و متنی استفاده می‌شود، یک زمین آزمایش فوق‌العاده برای خدمات هوش صوتی و پردازش زبان طبیعی است. ما ربات SeaVoice را که مجهز به دستورات تبدیل متن به گفتار و گفتار به متن بود، در آگوست 2022 در دیسکورد مستقر کردیم. برای کسب اطلاعات بیشتر در مورد نحوه عملکرد ربات، یا مشاهده یک ویدیوی کوتاه، می‌توانید از ویکی ربات SeaVoice بازدید کنید. در نوامبر همان سال، ما نسخه جدیدی را با بهبودهای قابل توجهی در بک‌اند منتشر کردیم (همانطور که در پست وبلاگ ما توضیح داده شده است: ربات دیسکورد SeaVoice: بهبودهای بک‌اند و پایداری) که به ما امکان می‌دهد داده‌های ناشناس را در مورد نحوه تعامل کاربران با ربات SeaVoice ثبت کنیم. در وبلاگ قبلی ما (مطالعه موردی ربات دیسکورد TTS) ما داده‌های کاربر 1 ماهه را از دستور تبدیل متن به گفتار تجزیه و تحلیل کردیم. در ادامه، در این پست به بررسی داده‌های کاربر گفتار به متن حدود 3 هفته خواهیم پرداخت.

استفاده از STT SeaVoice

در زمان نگارش این مقاله، ربات SeaVoice به تقریباً 900 سرور اضافه شده است! حدود 260 سرور با مجموع بیش از 600 شرکت‌کننده، حداقل یک بار دستور STT را امتحان کرده‌اند. در 3 هفته گذشته، ما تقریباً 1800 جلسه STT را میزبانی کرده‌ایم و در مجموع بیش از نیم میلیون خط رونویسی تولید کرده‌ایم.

جلسات روزانه گفتار به متن ربات دیسکورد SeaVoice در طول 3 هفته.

اگر به تعداد کل جلسات STT در روز نگاه کنیم، متوجه شدیم که این تعداد می‌تواند از 40 تا بیش از 140 (با میانگین حدود 70) متغیر باشد. همچنین می‌توانیم تعداد کل خطوط رونویسی را که تولید می‌کنیم، در نظر بگیریم. در کندترین روز، ما تنها 10 هزار خط تولید می‌کنیم، با این حال، در یک روز شلوغ، ما بیش از 40 هزار خط تولید کرده‌ایم. برای درک بهتر، در 18 ژانویه، ما 102 جلسه STT را با مجموع کمی کمتر از 30 هزار خط رونویسی میزبانی کردیم؛ این تقریباً 40 ساعت زمان ضبط بود.

ما همچنین دریافتیم که در حالی که بیشتر جلسات برای مکالمات کوتاه‌تر استفاده می‌شوند (میانگین 57 خط در هر جلسه)، تعداد قابل توجهی از جلسات بسیار طولانی وجود دارد که میانگین را به 650 خط در هر جلسه می‌رساند. طولانی‌ترین جلسه ما بیش از 30 هزار خط بود، یعنی بیش از یک روز کاری متوسط! در نهایت، ما همچنین بررسی کردیم که چند کاربر در هر جلسه حضور دارند و دریافتیم که معمولاً 4 تا 5 کاربر در هر جلسه حضور دارند - با این حال، یک بار از ربات برای پشتیبانی از رونویسی زنده در یک سمینار مجازی استفاده کردیم که 45 شرکت‌کننده داشت!

خطوط رونویسی شده توسط ربات دیسکورد SeaVoice در روز در طول 3 هفته.

در حالی که اکثر سرورها بیش از چند بار از جلسه STT استفاده نکرده‌اند، تعداد قابل توجهی از آنها به طور گسترده از این سرویس استفاده می‌کنند. از زمانی که ما شروع به ثبت داده‌های استفاده از STT در اواخر دسامبر کردیم، میانگین کل جلسات در هر سرور حدود 7 است؛ با این حال، سرور شماره 1 ما 131 جلسه را ثبت کرده است - این به طور متوسط بیش از 6 جلسه در روز است! همان سرور در عرض 3 هفته بیش از 150 هزار خط گفتار را رونویسی کرده است! شاید از آن هم چشمگیرتر، کاربر شماره 1 ما از همان سرور است و بیش از 60 هزار خط از گفتار خودش را رونویسی کرده است!

مشاهدات

چرا مردم از گفتار به متن استفاده می کنند

یک کاربر ربات دیسکورد SeaVoice هیجان خود را در مورد فایل‌های صوتی و رونویسی دائمی ابراز می‌کند.

بنابراین اولین سوال ما پس از مشاهده داده‌های استفاده این است: چرا کاربران مکرر از گفتار به متن استفاده می‌کنند؟

ما پایگاه داده را برای یافتن برخی توضیحات بررسی کردیم. با این حال، یافتن توضیحات مشخصی در مورد اینکه چرا کاربران از سرویس STT به جای سرویس TTS استفاده می‌کردند، دشوارتر بود. ظاهراً مردم احساس می‌کنند که باید به دیگران در چت توضیح دهند که چرا از TTS استفاده می‌کنند، اما در مورد STT کمتر اینگونه است. با این وجود، من چند رونویسی جالب پیدا کردم که بینشی در مورد اینکه چرا کاربران تصمیم به استفاده از سرویس STT می‌گیرند، ارائه داد.

چرا کاربران از STT استفاده می‌کنند:

«به همین دلیل است که از رونویسی استفاده می‌شود، زیرا می‌توانم چیزهایی را که از دست داده‌ام ببینم.»
«[کاربر] کم‌شنوا است، بنابراین رباتی دارد که آن را رونویسی می‌کند.»
«[کاربر] با آنها حمله می‌کند و آنها از آن برای رونویسی چیزها استفاده می‌کنند، اما بعد [کاربر] گفت، اوه، ما می‌توانیم از آن برای ******* D و D هم استفاده کنیم.»
«نمی‌توانم صبر کنم تا بعداً برگردم و برخی از این رونویسی‌ها را بخوانم […] می‌خواهم دوباره به آن ضبط گوش دهم و آن رونویسی را دوباره ببینم.»
«اگر جلساتمان را اینجا برگزار کنیم، می‌توانیم رونویسی جلسه را به هوش مصنوعی بدهیم.»
«در طول جلسه با افراد، دیدن یک رونویسی واقعاً عالی است.»
«[افرادی] که در چت نیستند یا افرادی که در جامعه هستند، اما بخشی از چت صوتی نیستند، اما تصمیم می‌گیرند نگاه کنند و بخوانند.»

بنابراین به طور کلی، به نظر می‌رسد که اکثر کاربران از راحتی داشتن یک رونویسی زنده لذت می‌برند که می‌تواند به آنها کمک کند تا مکالمه را پیگیری کنند و هر شکافی را که از دست داده‌اند پر کنند. این امر به ویژه برای کاربرانی که دارای اختلال شنوایی یا مشکلات صوتی/اتصال هستند، صادق است. برای برخی از کاربران، بزرگترین مزیت، نگهداری یک رکورد صوتی و متنی دائمی از مکالمه آنها است؛ این امر می‌تواند به ویژه برای موارد استفاده مانند نگهداری گزارش جلسات Dungeons & Dragons یا نگهداری سوابق جلسات مهم کاربرد داشته باشد.

از آنجایی که بسیاری از کاربران به صراحت نگفتند که چرا از سرویس STT استفاده می‌کنند، به نظر می‌رسید که درک اینکه آنها هنگام استفاده از ربات چه کاری انجام می‌دادند نیز مفید است. بررسی رونویسی‌های کاربران به من سرنخ‌هایی در مورد فعالیت‌هایی که آنها هنگام رونویسی انجام می‌دادند، داد:

کاربران هنگام استفاده از STT چه کاری انجام می‌دهند:

فقط چت کردن
- بازی:
- بازی‌های معمولی
- بازی‌های پیشرفته (مثلاً هماهنگی گروهی MMO، Massive Multiplayer Online، حملات)
بازی‌های نقش‌آفرینی (Dungeons & Dragons)
پخش زنده / ضبط محتوا
بحث در مورد کار مدرسه / حرفه‌ای / داوطلبانه

اکثر رونویسی‌ها در دسته‌های «فقط چت کردن» و «بازی‌های معمولی» قرار می‌گیرند. همانطور که در بالا دیدیم، فکر می‌کنم اکثر کاربران در این مورد از ربات برای بهبود دسترسی به کانال صوتی دیسکورد و/یا لذت بردن از راحتی دیدن رونویسی زنده برای پر کردن هر شکافی که در مکالمه از دست داده‌اند، استفاده می‌کنند. در برخی موارد (مانند زمانی که برای حملات MMO استفاده می‌شود)، بحث‌های بازی بسیار پیچیده هستند و کاربران در زمان واقعی با یکدیگر هماهنگ می‌شوند؛ رونویسی‌های زنده می‌توانند برای موفقیت تیم بسیار مفید باشند، زیرا کاربران می‌توانند هنگام بازی به رونویسی‌ها مراجعه کنند.

نمونه‌ای از بحث پیچیده در طول حمله MMO.

به نظر می‌رسد که بسیاری از کاربران از ربات برای رونویسی مکالمات جدی‌تر مانند جلسات مدرسه، حرفه‌ای و/یا جامعه داوطلبانه استفاده می‌کنند. ما همچنین از ربات خود برای رونویسی یک کنفرانس فناوری آنلاین، UnTechCon استفاده کردیم. در این موارد، فایل‌های ضبط و رونویسی نهایی ممکن است برای کاربران برای بررسی پس از جلسه بسیار مفید باشد. آخرین مثال جالبی که پیدا کردم، کاربری بود که محتوا را برای پخش زنده خود ضبط می‌کرد. از آنجایی که رونویسی نهایی دارای برچسب‌های زمانی است، کاربران می‌توانند فایل رونویسی را به عنوان زیرنویس برای محتوای صوتی یا تصویری ضبط شده خود آپلود کنند.

یک کاربر SeaVoice از اینکه کانال‌های صوتی دیسکورد را قابل دسترس‌تر کرده است، تشکر می‌کند.

اما صرف نظر از دلیل دقیق استفاده آنها از سرویس STT، بسیاری از کاربران هیجان خود را ابراز کردند که می‌توانند در مکالمات کانال صوتی شرکت کنند، در حالی که در غیر این صورت نمی‌توانستند. ما معتقدیم که سرویس STT کانال‌های صوتی دیسکورد را قابل دسترس‌تر می‌کند، و این دلیل اصلی است که کاربران عادی ما همچنان از این سرویس استفاده می‌کنند.

نظرات در مورد ربات دیسکورد SeaVoice

یکی دیگر از موضوعات جالبی که در گزارش‌ها یافت شد، نظرات در مورد خود ربات بود. خوشبختانه، ما چندین نظر بسیار مثبت در مورد ربات و عملکرد آن مشاهده کردیم.

یک کاربر SeaVoice در مورد دقت رونویسی نظر می‌دهد.

ما همچنین چند بازخورد سازنده پیدا کردیم.

یک کاربر SeaVoice بهبود لهجه‌های بریتانیایی را پیشنهاد می‌کند.

یک کاربر عملکرد SeaVoice را در انگلیسی لهجه‌دار با سیری مقایسه می‌کند.

بیشتر نظرات سازنده مربوط به عملکرد ضعیف ربات در انگلیسی با لهجه غیرآمریکایی بود؛ به ویژه کاربران به لهجه‌های بریتانیایی و اسکاتلندی اشاره کردند. برای آینده خدمات STT ما، می‌توانیم تلاش قابل توجهی برای بهبود تشخیص گفتار خود برای لهجه‌های مختلف انگلیسی انجام دهیم. البته، انگلیسی تنها زبانی نیست که کاربران ما صحبت می‌کنند، بنابراین ما همچنین قصد داریم پشتیبانی زبان بیشتری را به ربات اضافه کنیم. در واقع، ما در حال حاضر در حال نهایی کردن ادغام‌های STT و TTS ماندارین تایوانی خود هستیم و به زودی نسخه به‌روز شده ربات را منتشر خواهیم کرد.

حریم خصوصی، حساسیت داده‌ها و محتوای بالقوه توهین‌آمیز

توسعه هوش مصنوعی با سیل عظیمی از معضلات اخلاقی احاطه شده است. مدل‌های ما برای عملکرد خوب به مقادیر زیادی از داده‌های واقعی کاربر نیاز دارند، اما چگونه می‌توانیم این داده‌ها را به صورت اخلاقی و با احترام به حریم خصوصی کاربرانمان جمع‌آوری کنیم؟ مدل‌ها فقط بر اساس داده‌هایی که به آنها ارائه می‌شود یاد می‌گیرند و بنابراین دارای سوگیری‌های (احتمالاً پیش‌بینی نشده) هستند؛ پس چگونه می‌توانیم اطمینان حاصل کنیم که مدل‌های ما به همه کاربرانمان به یک اندازه خوب خدمت می‌کنند؟ علاوه بر این، مدل‌های ما هیچ مفهومی از مقبولیت اجتماعی ندارند و ممکن است نتایجی تولید کنند که برخی از کاربران آن را توهین‌آمیز بدانند. همانطور که یکی از کاربران ما به طور فصیح بیان کرد: «آیا اگر ربات این کار را انجام دهد، نژادپرستانه است، این سوال است».

یک کاربر SeaVoice به یک رونویسی نادرست مشکل‌ساز اشاره می‌کند.

دلیل اینکه من این نکات را مطرح می‌کنم، به دلیل چند رونویسی نگران‌کننده در گزارش‌ها است. اولین مشکل این است که ربات گهگاه محتوای توهین‌آمیز را رونویسی می‌کند. در مثال بالا، ربات به طور تصادفی نام کاربری شخصی را به عنوان یک توهین نژادی رونویسی کرد. بدیهی است که این یک خطا در سمت ربات است که ممکن است برای کاربران ما توهین‌آمیز باشد و باید بررسی شود. اما این به سوالات بیشتری منجر می‌شود: کجا باید مرز بین توهین و آسیب را ترسیم کنیم؟

یک کاربر SeaVoice در مورد تلاش برای سانسور کلمات خاصی از رونویسی نظر می‌دهد.

خب، برای شروع تصمیم گرفتیم این قدرت را به کاربران بدهیم. یکی از ویژگی‌های بعدی که روی آن کار خواهیم کرد، سانسور قابل تنظیم TTS و STT است. این به سرورها اجازه می‌دهد تا به صورت اختیاری سانسورهایی را برای کلمات رکیک، محتوای جنسی، توهین‌های نژادی و غیره اعمال کنند.

یک کاربر SeaVoice به شرکت‌کننده دیگری هشدار می‌دهد که مراقب باشد آنچه می‌گوید در رونویسی ظاهر خواهد شد.

جالب اینجاست که یکی دیگر از مسائل مرتبطی که مشاهده کردیم، خودسانسوری کاربران برای جلوگیری از ظاهر شدن برخی موارد در رونویسی بود. این امر به طرز شگفت‌آوری رایج بود، و من موارد زیادی را دیدم که کاربران توضیح دادند که نمی‌خواهند ربات آنچه را که قرار است بگویند رونویسی کند، بنابراین آنها متوقف شدند و سپس STT را دوباره راه‌اندازی کردند. این یک نگرانی کاملاً معتبر از سوی کاربر است، اگر برای مثال نمی‌خواهند ربات اطلاعات حساسی را رونویسی کند.

نحوه توقف STT با ناشنوا کردن ربات.

من مطمئن نیستم که راهی برای بهبود تجربه کاربری در این مورد وجود دارد یا خیر، اما به کاربران توصیه می‌کنم که می‌توانند ربات را به طور موقت «ناشنوا» کنند تا از ارسال هرگونه صدا به ربات جلوگیری شود. در این صورت، ربات هیچ داده صوتی دریافت نخواهد کرد تا زمانی که «ناشنوا» شود، بنابراین کاربر می‌تواند اساساً جلسه STT را بدون توقف و شروع یک جلسه جدید متوقف کند.

یک کاربر SeaVoice در مورد ناراحتی شرکت‌کننده دیگری از ربات نظر می‌دهد.

در نهایت، آخرین مشکلی که مشاهده کردیم این است که برخی از کاربران از رونویسی ربات آنقدر ناراحت هستند که در حضور ربات، فعالانه از صحبت کردن در کانال صوتی خودداری می‌کنند. این کاملاً برعکس هدف ما است، که این است که کانال‌های صوتی دیسکورد را برای همه قابل دسترس‌تر کنیم. در حالی که ما امیدواریم کاربران سیاست حفظ حریم خصوصی ما را بپذیرند و به ما اعتماد کنند که از داده‌های آنها مسئولانه استفاده کنیم، ما مطلقاً به حق حریم خصوصی همه احترام می‌گذاریم. بنابراین، ویژگی بعدی که ما پیاده‌سازی خواهیم کرد، تنظیمات انصراف از STT است. این به هر کاربری اجازه می‌دهد تا خود را از ضبط و رونویسی STT مستثنی کند، و داده‌های صوتی آنها به هیچ وجه توسط ربات قابل دسترسی یا جمع‌آوری نخواهد بود.

ما امیدواریم که این ویژگی‌های برنامه‌ریزی شده به ما امکان دهد تا کانال‌های صوتی را برای همه قابل دسترس‌تر کنیم، در حالی که به کاربران این امکان را می‌دهیم که با ربات SeaVoice در سطحی که راحت هستند، تعامل داشته باشند. در آینده، ما به تلاش خود برای حل فعالانه این مسائل چالش‌برانگیز ادامه خواهیم داد تا SeaVoice را به بهترین شکل ممکن تبدیل کنیم!

از علاقه شما به ربات دیسکورد ما و از کاربرانمان برای حمایت مداوم شما سپاسگزاریم! می‌توانید اطلاعات بیشتری در مورد محصول STT ما در صفحه اصلی گفتار به متن SeaVoice ما کسب کنید. برای یک دموی یک به یک از هر یک از محصولات هوش صوتی ما، فرم رزرو دمو را پر کنید.

اگر هنوز ربات SeaVoice را امتحان نکرده‌اید، می‌توانید اطلاعات بیشتری در مورد ربات ما کسب کنید و آن را از ویکی ربات دیسکورد SeaVoice به سرور خود اضافه کنید. همچنین می‌توانید به سرور رسمی دیسکورد SeaVoice ما بپیوندید.