Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
Discord पर स्पीच-टू-टेक्स्ट: एक केस स्टडी

Discord पर स्पीच-टू-टेक्स्ट: एक केस स्टडी

इस ब्लॉग में, हम डिस्कॉर्ड पर SeaVoice STT बॉट के वास्तविक उपयोगकर्ता डेटा के कई हफ्तों की समीक्षा के बाद प्राप्त निष्कर्षों पर चर्चा करेंगे।

SeaVoice Discord

SeaVoice के लॉन्च के बाद, जो डिस्कॉर्ड पर सबसे तेज और सटीक टेक्स्ट-टू-स्पीच (TTS) और स्पीच-टू-टेक्स्ट (STT) बॉट्स में से एक है, हम यह समझना चाहते थे कि उपयोगकर्ता वास्तव में सेवाओं के साथ कैसे इंटरैक्ट करते हैं। इस ब्लॉग में, हम वास्तविक STT उपयोगकर्ता डेटा के कई हफ्तों की समीक्षा के बाद प्राप्त निष्कर्षों पर चर्चा करेंगे।

SeaVoice: डिस्कॉर्ड TTS और STT बॉट

डिस्कॉर्ड, मुख्य रूप से वॉइस और टेक्स्ट चैट के मिश्रण के लिए उपयोग की जाने वाली प्लेटफॉर्म होने के नाते, ऑडियो AI और प्राकृतिक भाषा प्रसंस्करण सेवाओं के लिए एक उत्कृष्ट परीक्षण मैदान है। हमने अगस्त 2022 में SeaVoice बॉट को डिस्कॉर्ड पर तैनात किया, जो TTS और STT कमांड्स से लैस है। बॉट के बारे में अधिक जानने या एक छोटा वीडियो डेमो देखने के लिए, आप SeaVoice बॉट विकी पर जा सकते हैं। उसी वर्ष नवंबर में, हमने बैकएंड में बड़े सुधारों के साथ एक नया संस्करण जारी किया (जैसा कि हमारे ब्लॉग पोस्ट में दिखाया गया है: SeaVoice डिस्कॉर्ड बॉट: बैकएंड सुधार और स्थिरता) जो हमें यह रिकॉर्ड करने की अनुमति देता है कि उपयोगकर्ता SeaVoice बॉट के साथ कैसे इंटरैक्ट करते हैं। हमारे पिछले ब्लॉग (डिस्कॉर्ड TTS बॉट केस स्टडी) में हमने एक महीने के TTS उपयोगकर्ता डेटा का विश्लेषण किया। इसके अनुवर्ती के रूप में, इस पोस्ट में हम लगभग 3 हफ्तों के STT उपयोगकर्ता डेटा पर एक नज़र डालेंगे।

SeaVoice STT का उपयोग

इस रिपोर्ट के लिखे जाने तक, SeaVoice बॉट को लगभग 900 सर्वरों में जोड़ा गया है! लगभग 260 सर्वरों ने, जिनमें कुल मिलाकर 600 से अधिक प्रतिभागी हैं, कम से कम एक बार STT कमांड का उपयोग किया है। पिछले तीन हफ्तों में, हमने लगभग 1800 STT सत्रों की मेजबानी की है और कुल मिलाकर आधे मिलियन से अधिक पंक्तियों का ट्रांसक्रिप्शन उत्पन्न किया है।

3 हफ्तों में SeaVoice डिस्कॉर्ड बॉट के दैनिक STT सत्र।

3 हफ्तों में SeaVoice डिस्कॉर्ड बॉट के दैनिक STT सत्र।

यदि हम प्रति दिन STT सत्रों की कुल संख्या को देखें, तो हमने पाया कि यह 40 से लेकर 140 से अधिक (लगभग 70 का औसत) तक हो सकती है। हम ट्रांसक्रिप्शन की कुल पंक्तियों को भी देख सकते हैं जो हम उत्पन्न करते हैं। सबसे धीमे दिन, हम कम से कम 10 हजार पंक्तियाँ उत्पन्न करते हैं, हालाँकि, एक व्यस्त दिन में हमने 40 हजार से अधिक पंक्तियाँ उत्पन्न कीं। इसे परिप्रेक्ष्य में रखने के लिए, 18 जनवरी को, हमने 102 STT सत्रों की मेजबानी की जिसमें कुल मिलाकर 30 हजार पंक्तियों से थोड़ा कम ट्रांसक्रिप्शन हुआ; यह लगभग 40 घंटे के रिकॉर्डिंग समय के बराबर है।

हमने यह भी पाया कि जबकि अधिकांश सत्र छोटी चैट के लिए उपयोग किए जाते हैं (प्रति सत्र औसतन 57 पंक्तियाँ), बहुत लंबे सत्रों की एक महत्वपूर्ण संख्या है जो औसत को प्रति सत्र 650 पंक्तियों तक बढ़ा देती है। हमारा सबसे लंबा सत्र 30 हजार से अधिक पंक्तियों का था, जो एक पूरे औसत दिन से भी अधिक है! अंत में, हमने यह भी देखा कि प्रत्येक सत्र में कितने उपयोगकर्ता मौजूद होते हैं और पाया कि आमतौर पर प्रत्येक सत्र में 4 से 5 उपयोगकर्ता होते हैं - हालाँकि, हमने एक बार बॉट का उपयोग 45 प्रतिभागियों के साथ एक वर्चुअल सेमिनार में लाइव ट्रांसक्रिप्शन के लिए किया था!

3 हफ्तों में SeaVoice डिस्कॉर्ड बॉट की दैनिक ट्रांसक्रिप्शन पंक्तियाँ।

3 हफ्तों में SeaVoice डिस्कॉर्ड बॉट की दैनिक ट्रांसक्रिप्शन पंक्तियाँ।

जबकि अधिकांश सर्वरों ने STT सत्र का उपयोग कुछ ही बार किया है, काफी संख्या में सर्वर हैं जो सेवा का व्यापक रूप से उपयोग करते हैं। जब से हमने दिसंबर के अंत में STT उपयोग डेटा रिकॉर्ड करना शुरू किया है, प्रति सर्वर कुल सत्रों की औसत संख्या लगभग 7 है; हालाँकि, हमारा शीर्ष सर्वर 131 सत्रों के साथ रिकॉर्ड पर है - जो प्रतिदिन औसतन 6 से अधिक सत्र हैं! उसी सर्वर ने सिर्फ 3 हफ्तों में 150 हजार से अधिक स्पीच पंक्तियों का ट्रांसक्रिप्शन किया! शायद इससे भी अधिक प्रभावशाली, हमारा शीर्ष उपयोगकर्ता उसी सर्वर से है और उसके 60 हजार से अधिक स्पीच पंक्तियों का ट्रांसक्रिप्शन हुआ है!

अवलोकन

लोग स्पीच-टू-टेक्स्ट का उपयोग क्यों करते हैं

SeaVoice डिस्कॉर्ड बॉट उपयोगकर्ता ऑडियो और टेक्स्ट फाइलों के लिए उत्साह व्यक्त करता है।

SeaVoice डिस्कॉर्ड बॉट उपयोगकर्ता ऑडियो और टेक्स्ट फाइलों के लिए उत्साह व्यक्त करता है।

इसलिए उपयोग डेटा देखने के बाद हमारा पहला सवाल था: उपयोगकर्ता सबसे पहले STT का उपयोग क्यों करते हैं?

हमने कुछ स्पष्टीकरण खोजने के लिए डेटाबेस की खोज की। हालाँकि, यह पता लगाना मुश्किल साबित हुआ कि उपयोगकर्ता TTS के बजाय STT सेवा का उपयोग क्यों करते हैं। ऐसा लगता है कि लोगों को चैट में दूसरों को यह बताने की आवश्यकता महसूस होती है कि वे TTS का उपयोग क्यों कर रहे हैं, लेकिन STT के साथ ऐसा कम होता है। बावजूद इसके, मुझे कुछ दिलचस्प उद्धरण मिले जिन्होंने इस बारे में कुछ अंतर्दृष्टि दी कि उपयोगकर्ताओं ने STT सेवा का उपयोग करने का निर्णय क्यों लिया।

उपयोगकर्ता STT का उपयोग क्यों करते हैं:

  • “यही कारण है कि मैं ट्रांसक्रिप्शन का उपयोग करता हूँ क्योंकि मैं चीजों को देख सकता हूँ जो मैंने मिस किया था।”
  • “[उपयोगकर्ता] को सुनने में कठिनाई होती है, इसलिए उन्हें एक बॉट मिला जो इसे ट्रांसक्राइब करता है”
  • “[उपयोगकर्ता] उनके साथ छेड़छाड़ कर रहा था और वे इसे चीजों को ट्रांसक्राइब करने के लिए उपयोग कर रहे थे, लेकिन फिर [उपयोगकर्ता] ने कहा, ओह, हम इसका उपयोग D और D चीजों के लिए भी कर सकते हैं”
  • “मैं बाद में वापस आकर इनमें से कुछ ट्रांसक्रिप्ट्स को पढ़ने के लिए इंतज़ार नहीं कर सकता […] मैं इस रिकॉर्डिंग को वापस सुनना और इस टेक्स्ट को फिर से देखना चाहता हूँ”
  • “अगर हम अपनी मीटिंग्स यहाँ करते हैं, तो हम मीटिंग टेक्स्ट को AI में फीड कर सकते हैं”
  • “लोगों के साथ मीटिंग के दौरान, टेक्स्ट देखना अच्छा होता है”
  • “[लोग] जो चैट में नहीं हैं या समुदाय के लोग जो वॉइस चैट का हिस्सा नहीं हैं, लेकिन देखने और पढ़ने का फैसला करते हैं”

इसलिए सामान्य तौर पर, ऐसा लगता है कि अधिकांश उपयोगकर्ताओं को लाइव ट्रांसक्रिप्शन की सुविधा पसंद है जो उन्हें वार्तालाप को ट्रैक करने और किसी भी अंतराल को भरने में मदद कर सकती है जो उन्होंने मिस किया हो। यह विशेष रूप से उन उपयोगकर्ताओं के लिए सच है जिन्हें सुनने में कठिनाई या ध्वनि/संचार में कठिनाइयाँ होती हैं। कुछ उपयोगकर्ताओं के लिए, सबसे बड़ा लाभ उनकी वार्तालाप का एक स्थायी ऑडियो और टेक्स्ट रिकॉर्ड रखना है; यह Dungeons & Dragons सत्रों के रिकॉर्ड रखने या महत्वपूर्ण मीटिंग्स के रिकॉर्ड रखने जैसे उपयोग के मामलों के लिए विशेष रूप से सुविधाजनक हो सकता है।

चूँकि कई उपयोगकर्ताओं ने स्पष्ट रूप से यह नहीं बताया कि वे STT सेवा का उपयोग क्यों करते हैं, यह भी उपयोगी लगा कि यह पता लगाया जाए कि वे बॉट का उपयोग करते समय क्या कर रहे थे। उपयोगकर्ताओं के ट्रांसक्रिप्ट्स की समीक्षा करने से मुझे उन गतिविधियों के बारे में संकेत मिले जो वे ट्रांसक्रिप्शन के दौरान कर रहे थे:

उपयोगकर्ता STT का उपयोग करते समय क्या करते हैं:

  • बस चैट करना
    • गेमिंग:
    • नियमित गेमिंग
    • उन्नत गेमिंग (जैसे/ MMO रेड फॉर्मेटिंग, ऑनलाइन मल्टीप्लेयर गेम्स)
  • रोल-प्लेइंग गेम्स (Dungeons & Dragons)
  • स्ट्रीमिंग/कंटेंट रिकॉर्डिंग
  • स्कूल/व्यावसायिक/स्वैच्छिक कार्य पर चर्चा

अधिकांश ट्रांसक्रिप्ट्स “बस चैट” और “नियमित गेमिंग” श्रेणियों में आते हैं। जैसा कि ऊपर देखा गया है, मुझे लगता है कि इन मामलों में अधिकांश उपयोगकर्ता बॉट का उपयोग डिस्कॉर्ड वॉइस चैनल की पहुँच को बढ़ाने और/या वार्तालाप में किसी भी अंतराल को भरने के लिए लाइव ट्रांसक्रिप्शन देखने की सुविधा का आनंद लेने के लिए करते हैं। कुछ मामलों में (जैसे MMO रेड्स के लिए उपयोग करते समय), गेमिंग चर्चाएँ बहुत जटिल होती हैं और उपयोगकर्ता वास्तविक समय में एक दूसरे के साथ सहयोग करते हैं; लाइव ट्रांसक्रिप्ट्स टीम की सफलता के लिए बहुत उपयोगी हो सकती हैं क्योंकि उपयोगकर्ता गेम खेलते समय ट्रांसक्रिप्ट्स को देख सकते हैं।

MMO रेड के दौरान जटिल चर्चा का उदाहरण।

MMO रेड के दौरान जटिल चर्चा का उदाहरण।

ऐसा लगता है कि कई उपयोगकर्ता बॉट का उपयोग अधिक गंभीर चर्चाओं जैसे स्कूल, व्यावसायिक और/या स्वैच्छिक समुदाय मीटिंग्स को ट्रांसक्राइब करने के लिए भी करते हैं। हमने अपने बॉट का उपयोग एक ऑनलाइन तकनीकी सम्मेलन, UnTechCon को ट्रांसक्राइब करने के लिए भी किया है। इन मामलों में, अंतिम रिकॉर्डिंग और टेक्स्ट फाइलें उपयोगकर्ताओं के लिए मीटिंग के बाद समीक्षा करने के लिए बहुत उपयोगी हो सकती हैं। एक और दिलचस्प उदाहरण जो मुझे मिला वह एक उपयोगकर्ता था जो अपने स्ट्रीम के लिए कंटेंट रिकॉर्ड कर रहा था। चूँकि अंतिम टेक्स्ट टाइमस्टैम्प्स के साथ आता है, उपयोगकर्ता टेक्स्ट फाइल को अपने रिकॉर्ड किए गए ऑडियो या विजुअल कंटेंट के लिए कैप्शन के रूप में अपलोड कर सकते हैं।

SeaVoice उपयोगकर्ता डिस्कॉर्ड वॉइस चैनलों को अधिक सुलभ बनाने के लिए धन्यवाद व्यक्त करता है।

SeaVoice उपयोगकर्ता डिस्कॉर्ड वॉइस चैनलों को अधिक सुलभ बनाने के लिए धन्यवाद व्यक्त करता है।

लेकिन इस बात की परवाह किए बिना कि वे STT का उपयोग करने का सटीक कारण क्या है, कई उपयोगकर्ताओं ने इस बात के लिए उत्साह व्यक्त किया कि वे वॉइस चैट चैनल वार्तालापों में भाग लेने में सक्षम थे जब वे अन्यथा नहीं कर पाते। हमारा मानना है कि STT सेवा डिस्कॉर्ड वॉइस चैनलों को अधिक सुलभ बनाती है, और यही कारण है कि हमारे नियमित उपयोगकर्ता सेवा का उपयोग करना जारी रखते हैं।

SeaVoice डिस्कॉर्ड बॉट पर टिप्पणियाँ

डेटाबेस में पाया गया एक और दिलचस्प विषय बॉट पर टिप्पणियाँ थीं। सौभाग्य से, हमने बॉट और उसके प्रदर्शन के बारे में कई बहुत सकारात्मक टिप्पणियाँ देखीं।

SeaVoice उपयोगकर्ता ट्रांसक्रिप्शन सटीकता पर टिप्पणी करता है।

SeaVoice उपयोगकर्ता ट्रांसक्रिप्शन सटीकता पर टिप्पणी करता है।

हमें कई रचनात्मक टिप्पणियाँ भी मिलीं।

SeaVoice उपयोगकर्ता ब्रिटिश एक्सेंट के लिए सुधार का सुझाव देता है।

SeaVoice उपयोगकर्ता ब्रिटिश एक्सेंट के लिए सुधार का सुझाव देता है।

उपयोगकर्ता एक्सेंटेड अंग्रेजी पर SeaVoice के प्रदर्शन की तुलना Siri से करता है।

उपयोगकर्ता एक्सेंटेड अंग्रेजी पर SeaVoice के प्रदर्शन की तुलना Siri से करता है।

अधिकांश रचनात्मक टिप्पणियाँ इस बारे में थीं कि बॉट गैर-अमेरिकी एक्सेंट वाली अंग्रेजी पर अच्छा प्रदर्शन नहीं करता है; विशेष रूप से, उपयोगकर्ताओं ने ब्रिटिश और स्कॉटिश एक्सेंट का उल्लेख किया। हमारी भविष्य की STT सेवाओं के लिए, हम विभिन्न अंग्रेजी एक्सेंट्स के लिए हमारे स्पीच रिकग्निशन में सुधार करने के लिए महत्वपूर्ण प्रयास कर सकते हैं। बेशक, अंग्रेजी एकमात्र भाषा नहीं है जिसमें हमारे उपयोगकर्ता बात करते हैं, इसलिए हम बॉट में अधिक भाषा समर्थन जोड़ने की भी योजना बना रहे हैं। वास्तव में, हम वर्तमान में ताइवानी मंदारिन के लिए STT और TTS इंटीग्रेशन को अंतिम रूप दे रहे हैं, और हम जल्द ही बॉट का एक अद्यतन संस्करण जारी करेंगे।

गोपनीयता, डेटा संवेदनशीलता और संभावित आपत्तिजनक सामग्री

AI विकास नैतिक दुविधाओं से घिरा हुआ है। हमारे मॉडल्स को अच्छी तरह से काम करने के लिए वास्तविक उपयोगकर्ता डेटा की भारी मात्रा की आवश्यकता होती है, लेकिन हम उस डेटा को नैतिक रूप से कैसे एकत्र करते हैं जबकि हमारे उपयोगकर्ताओं की गोपनीयता का सम्मान करते हैं? मॉडल्स केवल उन्हें प्रदान किए गए डेटा के आधार पर सीखते हैं और इस प्रकार (संभवतः अप्रत्याशित) पूर्वाग्रह होते हैं; हम कैसे सुनिश्चित कर सकते हैं कि हमारे मॉडल्स हमारे सभी उपयोगकर्ताओं को समान गुणवत्ता की सेवा प्रदान करते हैं? इसके अलावा, हमारे मॉडल्स में सामाजिक स्वीकार्यता की कोई अवधारणा नहीं है और वे कुछ परिणाम उत्पन्न कर सकते हैं जिन्हें कुछ उपयोगकर्ता आपत्तिजनक पा सकते हैं। जैसा कि हमारे एक उपयोगकर्ता ने चतुराई से कहा: “सवाल यह है कि अगर बॉट ऐसा करता है तो क्या यह नस्लवादी है”.

SeaVoice उपयोगकर्ता एक समस्याग्रस्त गलत ट्रांसक्रिप्शन की ओर इशारा करता है।

SeaVoice उपयोगकर्ता एक समस्याग्रस्त गलत ट्रांसक्रिप्शन की ओर इशारा करता है।

मैं ये बिंदु इसलिए उठा रहा हूँ क्योंकि डेटाबेस में कुछ परेशान करने वाले ट्रांसक्रिप्ट्स थे। पहली समस्या यह है कि बॉट कभी-कभी आपत्तिजनक सामग्री को ट्रांसक्राइब कर देता है। ऊपर दिए गए उदाहरण में, बॉट ने गलती से किसी उपयोगकर्ता के नाम को एक नस्लवादी गाली के रूप में ट्रांसक्राइब किया। यह स्पष्ट रूप से बॉट की तरफ से एक गलती है जो हमारे उपयोगकर्ताओं के लिए आपत्तिजनक हो सकती है और इसकी जाँच की जानी चाहिए। लेकिन यह और सवाल उठाता है: हम अपमान और नुकसान के बीच की रेखा कहाँ खींचते हैं?

SeaVoice उपयोगकर्ता ट्रांसक्रिप्शन से कुछ शब्दों को सेंसर करने के प्रयास पर टिप्पणी करता है।

SeaVoice उपयोगकर्ता ट्रांसक्रिप्शन से कुछ शब्दों को सेंसर करने के प्रयास पर टिप्पणी करता है।

ठीक है, शुरुआत करने के लिए, हमने यह शक्ति उपयोगकर्ताओं को देने का निर्णय लिया है। हम जिन अगली विशेषताओं पर काम कर रहे हैं, उनमें से एक TTS और STT के लिए कॉन्फिगरेबल सेंसरशिप है। यह सर्वरों को वैकल्पिक रूप से अश्लील शब्दों, यौन सामग्री, नस्लवादी गालियों आदि पर सेंसरशिप लागू करने की अनुमति देगा।

SeaVoice उपयोगकर्ता दूसरे प्रतिभागी को चेतावनी देता है कि वे जो कह रहे हैं वह ट्रांसक्रिप्शन में दिखाई देगा।

SeaVoice उपयोगकर्ता दूसरे प्रतिभागी को चेतावनी देता है कि वे जो कह रहे हैं वह ट्रांसक्रिप्शन में दिखाई देगा।

दिलचस्प बात यह है कि एक और संबंधित समस्या जो हमने देखी वह यह है कि कुछ उपयोगकर्ता बॉट द्वारा ट्रांसक्राइब किए जाने के बारे में इतने असहज महसूस करते हैं कि वे सक्रिय रूप से वॉइस चैट में बोलने से बचते हैं जब बॉट मौजूद होता है। यह हमारे लक्ष्य के बिल्कुल विपरीत है, जो डिस्कॉर्ड वॉइस चैनलों को सभी के लिए अधिक सुलभ बनाना है। जबकि हम आशा करते हैं कि उपयोगकर्ता हमारी गोपनीयता नीति को स्वीकार करेंगे और हम पर उनके डेटा का जिम्मेदारी से उपयोग करने के लिए भरोसा करेंगे, हम पूरी तरह से सभी के गोपनीयता के अधिकार का सम्मान करते हैं। इसलिए, हम जिस अगली विशेषता को लागू करने जा रहे हैं वह STT ऑप्ट-आउट सेटिंग है। यह किसी भी उपयोगकर्ता को STT रिकॉर्डिंग और ट्रांसक्रिप्शन से खुद को बाहर करने की अनुमति देगा, और बॉट द्वारा उनके ऑडियो डेटा तक किसी भी तरह से पहुँच या संग्रह नहीं किया जाएगा।

हम आशा करते हैं कि ये नियोजित विशेषताएँ हमें डिस्कॉर्ड वॉइस चैनलों को सभी के लिए अधिक सुलभ बनाना जारी रखने की अनुमति देंगी जबकि उपयोगकर्ताओं को SeaVoice बॉट के साथ उस स्तर पर इंटरैक्ट करने की क्षमता प्रदान करेंगी जिसके साथ वे सहज महसूस करते हैं। हम SeaVoice को सर्वोत्तम बनाने के लिए इन कठिन समस्याओं को सक्रिय रूप से हल करने का प्रयास जारी रखेंगे!

हमारे डिस्कॉर्ड बॉट में आपकी रुचि के लिए धन्यवाद और आपके निरंतर समर्थन के लिए हमारे उपयोगकर्ताओं को धन्यवाद! आप हमारे STT उत्पाद के बारे में SeaVoice स्पीच-टू-टेक्स्ट होमपेज पर अधिक जान सकते हैं। हमारे किसी भी वॉइस AI उत्पाद के एक-पर-एक डेमो के लिए, डेमो बुकिंग फॉर्म भरें।

यदि आपने अभी तक SeaVoice बॉट को आज़माया नहीं है, तो आप हमारे बॉट के बारे में अधिक जान सकते हैं और इसे अपने सर्वर में SeaVoice डिस्कॉर्ड बॉट विकी से जोड़ सकते हैं। SeaVoice के आधिकारिक डिस्कॉर्ड सर्वर में शामिल होने के लिए भी स्वतंत्र महसूस करें।

Related Articles

व्यापार मालिकों: ऑफ-घंटों के दौरान जुड़ने के लिए Google व्यवसाय संदेशों का उपयोग करें!
28/3/2022

व्यापार मालिकों: ऑफ-घंटों के दौरान जुड़ने के लिए Google व्यवसाय संदेशों का उपयोग करें!

जबकि Google व्यवसाय प्रोफ़ाइल व्यवसाय मालिकों को सीधे ग्राहकों के साथ चैट करने देती है, Google व्यवसाय संदेश एक आभासी एजेंट के साथ एकीकरण को सक्षम बनाता है।

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.