Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
डिस्कॉर्ड पर टेक्स्ट-टू-स्पीच: एक टीटीएस डिस्कॉर्ड बॉट केस स्टडी

डिस्कॉर्ड पर टेक्स्ट-टू-स्पीच: एक टीटीएस डिस्कॉर्ड बॉट केस स्टडी

इस ब्लॉग में हम कई महीनों के प्रामाणिक टेक्स्ट-टू-स्पीच डेटा की समीक्षा करने के बाद वास्तविक डिस्कॉर्ड उपयोगकर्ताओं द्वारा हमारी सेवाओं का उपयोग कैसे किया जाता है, इस पर हमारे निष्कर्षों पर चर्चा करेंगे।

SeaVoice Discord

डिस्कॉर्ड पर सबसे तेज़ और सबसे सटीक टेक्स्ट-टू-स्पीच और स्पीच-टू-टेक्स्ट बॉट में से एक, SeaVoice लॉन्च करने के बाद, हम यह समझना चाहते थे कि उपयोगकर्ता वास्तव में सेवाओं के साथ कैसे इंटरैक्ट कर रहे थे। इस ब्लॉग में हम कई महीनों के वास्तविक टेक्स्ट-टू-स्पीच उपयोगकर्ता डेटा की समीक्षा करने के बाद अपने निष्कर्षों पर चर्चा करेंगे।

SeaVoice: एक टेक्स्ट-टू-स्पीच और स्पीच-टू-टेक्स्ट डिस्कॉर्ड बॉट

डिस्कॉर्ड, मुख्य रूप से ऑडियो और टेक्स्ट-आधारित चैटिंग के संयोजन के लिए उपयोग किया जाने वाला एक मंच होने के नाते, वॉयस इंटेलिजेंस और प्राकृतिक भाषा प्रसंस्करण सेवाओं के लिए एक शानदार परीक्षण स्थल है। हमने अगस्त 2022 में टेक्स्ट-टू-स्पीच और स्पीच-टू-टेक्स्ट कमांड से लैस SeaVoice बॉट को डिस्कॉर्ड पर तैनात किया। बॉट कैसे काम करता है, इसके बारे में अधिक जानने के लिए, या एक छोटा वीडियो डेमो देखने के लिए, आप SeaVoice डिस्कॉर्ड बॉट विकी पर जा सकते हैं। उसी वर्ष नवंबर में, हमने महत्वपूर्ण बैकएंड सुधारों के साथ एक नया संस्करण जारी किया (जैसा कि हमारे पिछले ब्लॉग पोस्ट में वर्णित है: SeaVoice डिस्कॉर्ड बॉट: बैकएंड और स्थिरता सुधार) जो हमें इस बात पर गुमनाम डेटा रिकॉर्ड करने की अनुमति देता है कि उपयोगकर्ता SeaVoice बॉट के साथ कैसे इंटरैक्ट कर रहे हैं। इस ब्लॉग में हम टेक्स्ट-टू-स्पीच कमांड से 1 महीने के उपयोगकर्ता डेटा पर एक नज़र डालेंगे।

SeaVoice TTS उपयोग

7 सप्ताह में SeaVoice डिस्कॉर्ड बॉट का दैनिक टेक्स्ट-टू-स्पीच उपयोग।

7 सप्ताह में SeaVoice डिस्कॉर्ड बॉट का दैनिक टेक्स्ट-टू-स्पीच उपयोग।

लिखने के समय, SeaVoice बॉट को लगभग 800 सर्वर में जोड़ा गया है! नवंबर में उपयोग डेटा रिकॉर्ड करना शुरू करने के बाद से, हमने पाया है कि प्रति दिन अनुरोधों की कुल संख्या 150 से लेकर 1,300 से अधिक तक (लगभग 560 के औसत के साथ) भिन्न हो सकती है। लगभग 650 उपयोगकर्ताओं ने कम से कम एक बार टीटीएस कमांड का प्रयास किया है। हालांकि, अधिकांश उपयोगकर्ता इसे आज़माने के बाद नियमित रूप से इसका उपयोग करना जारी नहीं रखते हैं। उन 650 उपयोगकर्ताओं में से जिन्होंने टीटीएस कमांड का प्रयास किया, लगभग 200 ने इसे 20 या अधिक बार इस्तेमाल किया, और केवल 100 ने इसे 50 या अधिक बार इस्तेमाल किया। यह कहा जा रहा है कि, जो लोग टीटीएस कमांड का आनंद लेते हैं और उस पर भरोसा करते हैं, वे इसका बड़े पैमाने पर उपयोग करते हैं! हमारे शीर्ष 5 उपयोगकर्ताओं ने पिछले दो महीनों में प्रत्येक ने 1,000 से अधिक अनुरोध सबमिट किए हैं, और शीर्ष उपयोगकर्ता ने अकेले लगभग 2,500 अनुरोध सबमिट किए हैं!

अवलोकन

लोग टेक्स्ट-टू-स्पीच का उपयोग क्यों करते हैं

SeaVoice डिस्कॉर्ड बॉट उपयोगकर्ता टेक्स्ट-टू-स्पीच का उपयोग क्यों करते हैं।

SeaVoice डिस्कॉर्ड बॉट उपयोगकर्ता टेक्स्ट-टू-स्पीच का उपयोग क्यों करते हैं।

तो उपयोग डेटा देखने के बाद हमारा पहला सवाल यह है: बार-बार उपयोग करने वाले उपयोगकर्ता सबसे पहले टीटीएस का उपयोग क्यों कर रहे हैं? हमने कुछ स्पष्टीकरण खोजने के लिए डेटाबेस को देखा। निम्नलिखित हमारे कुछ उपयोगकर्ताओं के वास्तविक टीटीएस कमांड हैं।

तुम बात क्यों नहीं कर रहे हो?

- मैं खा रहा हूँ इसलिए बात नहीं कर सकता
- मैं वास्तव में बात करता, लेकिन मैं इस समय काम पर हूँ।
- अगर मैं बात करूँगा तो मैं अपने परिवार को जगा दूँगा
- क्षमा करें, बहुत बात नहीं करूँगा। गला बहुत दुख रहा है।
- मैं बात कर सकता था लेकिन मेरी माँ यहाँ हैं
- मैं आज बात करने के लिए बहुत आलसी हूँ
- मैं बीमार हूँ इसलिए बात नहीं कर सकता लेकिन मैं वैसे भी शामिल होना चाहता था :)
- पूरी तरह से म्यूट नहीं, बस बात करने में प्रयास लगता है। कुछ दिनों में बहुत प्रयास
- क्षमा करें, मैं म्यूट हूँ, मेरी दादी फोन पर बात कर रही हैं और बहुत शोर है
- क्योंकि मेरा माइक खराब था

इन स्पष्टीकरणों को खोजने के बाद हम इसे कुछ मुख्य कारणों में संक्षेप कर सकते हैं:

  • एक शारीरिक बाधा है (टूटा हुआ माइक, बोलने में कठिनाई, बीमारी आदि),
  • वे कुछ और करने में व्यस्त हैं (खाना, काम पर, आदि),
  • उनका वातावरण बहुत शोर वाला है या उन्हें शांत रहने की आवश्यकता है, या
  • क्योंकि यह सुविधाजनक है और वे इसका उपयोग करना पसंद करते हैं।

लेकिन टीटीएस सेवा का उपयोग करने का उनका सटीक कारण कुछ भी हो, कई उपयोगकर्ताओं ने उत्साह व्यक्त किया कि वे वॉयस चैनल वार्तालापों में भाग लेने में सक्षम थे, जबकि अन्यथा वे ऐसा नहीं कर पाते। हमारा मानना है कि टीटीएस सेवा डिस्कॉर्ड वॉयस चैनलों को अधिक सुलभ बनाती है, और यही मुख्य कारण है कि हमारे नियमित उपयोगकर्ता इस सेवा का उपयोग करना जारी रखते हैं।

भाषा का उपयोग

बातचीत की समीक्षा करते समय मुझे एक बात जो सबसे अलग लगी, वह यह थी कि कई उपयोगकर्ताओं ने विभिन्न भाषाओं के साथ टेक्स्ट-टू-स्पीच कमांड का उपयोग करने का प्रयास किया। जबकि कुछ उपयोगकर्ता केवल यह देखना चाहते थे कि क्या यह काम करेगा या उच्चारण को मज़ेदार मानते थे, अन्य, हालांकि, लंबे समय तक गैर-अंग्रेजी भाषाओं में टीटीएस का उपयोग करना जारी रखा!

एक उपयोगकर्ता अंग्रेजी SeaVoice TTS मॉडल के स्पेनिश उच्चारण का परीक्षण करता है।

एक उपयोगकर्ता अंग्रेजी SeaVoice TTS मॉडल के स्पेनिश उच्चारण का परीक्षण करता है।

यह विशेष रूप से स्पेनिश बोलने वालों के मामले में था, भले ही (जैसा कि ऊपर उपयोगकर्ता नोट करता है) स्पेनिश के लिए टीटीएस प्रदर्शन अच्छा नहीं है, क्योंकि मॉडल को केवल अंग्रेजी पर प्रशिक्षित किया जाता है। मैंने हर बार जब भी मुझे कोई उपयोगकर्ता अंग्रेजी के अलावा किसी अन्य भाषा में टीटीएस कमांड का उपयोग करने का प्रयास करता हुआ मिला, तो मैंने उसे नोट करना शुरू कर दिया।

टीटीएस को गैर-अंग्रेजी अनुरोध भेजने के प्रयासों की संख्या।

टीटीएस को गैर-अंग्रेजी अनुरोध भेजने के प्रयासों की संख्या।

ऊपर दी गई तालिका में प्रत्येक बातचीत की संख्या दिखाई गई है जिसमें मुझे कम से कम एक उदाहरण मिला है जिसमें किसी ने टीटीएस कमांड में संबंधित भाषा का उपयोग किया है। जाहिर है, स्पेनिश अब तक सबसे आम है, और इस तथ्य के साथ कि कई उपयोगकर्ताओं ने खराब प्रदर्शन के बावजूद स्पेनिश में टीटीएस फ़ंक्शन का उपयोग करना जारी रखा, मुझे आश्चर्य होता है कि क्या डिस्कॉर्ड पर स्पेनिश टीटीएस के लिए कोई व्यवहार्य विकल्प पहले से मौजूद नहीं है। किसी भी मामले में, लोग हमारी टीटीएस सेवा का उपयोग अन्य भाषाओं के लिए करने की कोशिश कर रहे हैं, इसलिए हम यह ट्रैक कर सकते हैं कि किन भाषाओं की सबसे अधिक मांग है और इस डेटा का उपयोग हमारे नए मॉडल के प्रशिक्षण को सूचित करने के लिए कर सकते हैं।

बॉट के बारे में टिप्पणी

लॉग में पाया गया एक और दिलचस्प विषय बॉट के बारे में ही टिप्पणी थी। शुक्र है, हमने बॉट और उसके प्रदर्शन के बारे में कई बहुत ही सकारात्मक टिप्पणियाँ देखीं।

एक उपयोगकर्ता टिप्पणी करता है कि बॉट उन्हें अधिक समावेशी महसूस कराता है।

एक उपयोगकर्ता टिप्पणी करता है कि बॉट उन्हें अधिक समावेशी महसूस कराता है।

सबसे मार्मिक टिप्पणियाँ उन लोगों की थीं जो वॉयस चैनलों से बाहर महसूस करते थे, लेकिन अब बॉट द्वारा प्रदान की गई अतिरिक्त पहुंच के कारण भाग लेने में सक्षम हैं।

हमें कुछ रचनात्मक प्रतिक्रिया भी मिली।

एक उपयोगकर्ता टिप्पणी करता है कि टीटीएस की गति एक समस्या है।

एक उपयोगकर्ता टिप्पणी करता है कि टीटीएस की गति एक समस्या है।

एक उपयोगकर्ता ने उल्लेख किया कि, चूंकि उपयोगकर्ताओं को पहले पूरा वाक्य टाइप करना होगा और फिर उसे भेजना होगा, टीटीएस सामान्य बोलने की तुलना में धीमा है, इसलिए कभी-कभी उनकी टीटीएस उच्चारण बातचीत में थोड़ी देर से बोली जाती है। जैसा कि पिछले अनुभाग में उल्लेख किया गया है, हमने अतिरिक्त भाषा समर्थन के लिए अनुरोध भी देखे, साथ ही एक उपयोगकर्ता भी था जो बॉट का उपयोग करके भाषाओं के बीच अनुवाद करने में सक्षम होने की उम्मीद करता था। इस तरह की प्रतिक्रिया पर नज़र रखने से हमें भविष्य में सुविधाओं की योजना बनाने और सुधारने में मदद मिलेगी।

नवीनता

टीटीएस कमांड के पूरे संग्रह को देखने के बाद, मैं कहूंगा कि लगभग दो-तिहाई उच्चारणों का उपयोग सर्वर में दोस्तों और अन्य लोगों के साथ सामान्य बातचीत में किया जाता है। अधिकांश लोग गेम खेल रहे हैं और बस अपने दोस्तों के साथ चैट कर रहे हैं, और ये उपयोगकर्ता नियमित रूप से टीटीएस सेवा का उपयोग करते हैं। दूसरी ओर, शेष एक-तिहाई उच्चारण “बस मज़ाक करना” की श्रेणी में आते हैं। जब आपको किसी आवाज़ को जो कुछ भी आप चाहते हैं उसे कहने की पूरी शक्ति दी जाती है, तो मेरा मानना है कि हंसी के लिए आप जो सबसे मूर्खतापूर्ण या सबसे अश्लील चीज़ सोच सकते हैं उसे चुनना मानव स्वभाव है। मुझे याद है कि मैं प्राथमिक विद्यालय के कंप्यूटर लैब में बैठा था और माइक्रोसॉफ्ट सैम (उस समय बहुत उच्च तकनीक) द्वारा घंटों तक मनोरंजन किया जाता था, यह देखने के लिए कि क्या हम उसे “पूप” या “बट” जैसी बातें कह सकते हैं। खैर, मुझे लगता है कि मेरे जैसे बच्चे बड़े हो गए, एक समृद्ध शब्दावली प्राप्त की, और अंततः डिस्कॉर्ड पर हमारी टीटीएस सेवा के साथ वही मनोरंजन पाया।

उपयोगकर्ताओं द्वारा भेजे गए अजीब टीटीएस अनुरोधों के उदाहरण।

उपयोगकर्ताओं द्वारा भेजे गए अजीब टीटीएस अनुरोधों के उदाहरण।

कभी-कभी उपयोगकर्ता केवल बॉट को तोड़ने की कोशिश करते हैं जैसे: अत्यधिक लंबी स्ट्रिंग, विशेष वर्ण, इमोजी, यूआरएल, आदि। यह लोगों द्वारा सॉफ़्टवेयर की सीमाओं का परीक्षण करने का एक क्लासिक उदाहरण है, और वास्तव में यह सुनिश्चित करने में हमारी मदद करता है कि हमारी सेवाएं मजबूत हैं और उपयोगकर्ता द्वारा इसमें डाली गई किसी भी इनपुट को संभाल सकती हैं।

अन्य समय में, उपयोगकर्ता टीटीएस सेवा को सबसे अश्लील और आपत्तिजनक बातें कहने के लिए कहकर मनोरंजन पाते हैं जो वे सोच सकते हैं। टीटीएस लॉग में मुझे लगता है कि मैंने हर गाली देखी जो मैं जानता हूं (और शायद कुछ जो मैंने पहले कभी नहीं सुनी), नस्लीय गालियां, और स्पष्ट यौन सामग्री।

नैतिकता का मामला

दुर्भाग्य से, टेक्स्ट-टू-स्पीच एप्लिकेशन का उपयोग कई तरीकों से अप्रिय रूप से किया जा सकता है: जैसे घृणास्पद भाषण या साइबरबुलिंग को बढ़ावा देना। इसके अतिरिक्त, जबकि ऑडियो क्लिप एक मॉडल से संश्लेषित होते हैं, मॉडल को प्रशिक्षित करने के लिए डेटा एक वास्तविक व्यक्ति से आता है और एक अच्छे मॉडल से आउटपुट मूल से लगभग अप्रभेद्य लग सकता है।

तो ये बिंदु, इस बात के साथ कि हमने वास्तविक उपयोगकर्ताओं को हमारी टीटीएस सेवा का उपयोग (या दुरुपयोग) करते हुए कैसे देखा है, Seasalt.ai के लिए एक कंपनी के रूप में और SeaVoice डिस्कॉर्ड बॉट के लिए कुछ बहुत महत्वपूर्ण प्रश्न उठाते हैं:

  • क्या हम एक कंपनी के रूप में चाहते हैं कि हमारे उत्पाद का उपयोग संभावित रूप से आपत्तिजनक या हानिकारक तरीकों से किया जाए?
  • टेक्स्ट-टू-स्पीच अनुप्रयोगों में अपनी आवाज़ का उपयोग कैसे किया जाता है, इस पर वॉयस अभिनेताओं के क्या अधिकार हैं?
  • क्या हमें अपनी सेवा का उपयोग कैसे किया जाता है, इसे सेंसर करने का अधिकार या जिम्मेदारी है?

इन सवालों का जवाब एक ही ब्लॉग पोस्ट में नहीं दिया जा सकता है, या पूरी तरह से खोजा भी नहीं जा सकता है। हालांकि, कंपनी डिस्कॉर्ड परियोजना के साथ आगे बढ़ने और हमारे वॉयस अभिनेताओं के साथ काम करना जारी रखने के साथ इन मुद्दों पर लगातार विचार करने के लिए बाध्य महसूस करती है।

हमारे डिस्कॉर्ड बॉट और वॉयस इंटेलिजेंस परियोजनाओं में आपकी रुचि के लिए धन्यवाद! आप हमारे एसटीटी उत्पाद के बारे में हमारी स्पीच-टू-टेक्स्ट होमपेज पर अधिक जान सकते हैं। हमारे किसी भी वॉयस इंटेलिजेंस उत्पाद के एक-पर-एक डेमो के लिए, डेमो फॉर्म बुक करें भरें।

डिस्कॉर्ड की ओर, आप हमारे बॉट के बारे में अधिक जान सकते हैं और इसे अपने सर्वर में SeaVoice डिस्कॉर्ड बॉट विकी से जोड़ सकते हैं। हमारे आधिकारिक SeaVoice डिस्कॉर्ड सर्वर में शामिल होने के लिए भी स्वतंत्र महसूस करें।

Related Articles

व्यापार मालिकों: ऑफ-घंटों के दौरान जुड़ने के लिए Google व्यवसाय संदेशों का उपयोग करें!
28/3/2022

व्यापार मालिकों: ऑफ-घंटों के दौरान जुड़ने के लिए Google व्यवसाय संदेशों का उपयोग करें!

जबकि Google व्यवसाय प्रोफ़ाइल व्यवसाय मालिकों को सीधे ग्राहकों के साथ चैट करने देती है, Google व्यवसाय संदेश एक आभासी एजेंट के साथ एकीकरण को सक्षम बनाता है।

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.