इस ब्लॉग श्रृंखला के दौरान, Seasalt.ai की एक अच्छी तरह से गोल आधुनिक बैठक अनुभव बनाने की यात्रा का अनुसरण करें, इसकी विनम्र शुरुआत से लेकर, विभिन्न हार्डवेयर और मॉडल पर हमारी सेवा को अनुकूलित करने तक, अत्याधुनिक एनएलपी सिस्टम को एकीकृत करने तक और अंत में SeaMeet, हमारे सहयोगी आधुनिक बैठक समाधान की पूर्ण प्राप्ति पर समाप्त होता है।
आधुनिक बैठकों के नुकसान
हमारे विकास के दौरान, हमें स्पष्ट कारणों या समाधानों के बिना कई अप्रत्याशित बाधाएं मिलीं।
एक त्वरित शुरुआत
पहली बाधा हमारे उपकरणों को काम पर लगाना था। Azure ने एक आधुनिक मीटिंग्स का नमूना प्रदान किया जो हमें खुशी थी कि Linux के साथ संगत था, लेकिन हमने पाया कि डेमो चलाने के लिए Windows पर SDK का उपयोग करना बहुत आसान था - खैर, यह आखिरकार एक Microsoft उत्पाद था। प्रदान किए गए नमूने को Linux पर चलाने के कई असफल प्रयासों के बाद, हमें अंततः उस रास्ते को छोड़ना पड़ा और Windows का सहारा लेना पड़ा। आखिरकार हमारे पास एक कार्यात्मक भाषण ट्रांसक्राइबर था, जो एक जबरदस्त शुरुआत थी।
विलंबता
एक समस्या जिसका हमने अनुभव किया वह फ्रंट एंड यूआई पर हमारे पहचान परिणामों को प्राप्त करने में लगभग पांच सेकंड की देरी थी। जबकि 5 सेकंड काफी तेज लग सकते हैं, यह देरी एक सुविधाजनक और व्यावहारिक समाधान होने से कुछ सेकंड धीमी है, खासकर वास्तविक समय संचार के लिए।

Azure Speech SDK द्वारा प्रदान किए गए भाषण प्रतिलेखन के लिए डिफ़ॉल्ट UI
विलंबता बैक एंड में भी एक गंभीर समस्या थी। प्रत्येक बैठक की शुरुआत में, परिणाम वास्तविक समय में आते थे (जैसा कि विज्ञापित किया गया था!), लेकिन जैसे-जैसे बैठक आगे बढ़ती गई, मॉनिटर पर टेक्स्ट दिखाई देने से पहले विलंबता समय-समय पर तीस सेकंड तक बढ़ जाती थी। उस समय तक, जो कुछ भी कहा गया था, वह बातचीत में लंबे समय से अप्रासंगिक हो गया था। अनगिनत परीक्षणों के बाद, हमने देखा कि विलंबता पूरे दिन बदलती रहती है, जिसे हमने उस समय Azure के सर्वर लोड के लिए जिम्मेदार ठहराया। हम एक सुसंगत, विश्वसनीय उत्पाद बनाने के व्यवसाय में हैं, इसलिए ये उतार-चढ़ाव और अप्रत्याशित देरी अस्वीकार्य थी। अपने स्वयं के मॉडल और सर्वर पर भरोसा करने का और भी कारण।
बोली
एक विशेष कारण जिसके कारण हमने सबसे पहले Azure Speech Service का उपयोग किया, वह भाषाओं और बोलियों की एक बड़ी विविधता के लिए उनका व्यापक समर्थन था। हम विशेष रूप से Azure Speech Service के सिंगापुर अंग्रेजी मॉडल का उपयोग करने के लिए उत्साहित थे। लेकिन सिंगापुर की बोली के लिए, अमेरिकी अंग्रेजी मॉडल ने लगातार सिंगापुर अंग्रेजी मॉडल से बेहतर प्रदर्शन किया, यह जानकर हमें कितना आश्चर्य हुआ। इसके अलावा, सबसे अच्छा मॉडल भी वास्तविक दुनिया की चुनौतियों पर खरा नहीं उतरा।

“बधाई हो! लड़का या लड़की?” का परिणामी प्रतिलेखन
हमें “ओला रेगुलेशन मे बी बॉयल्ड बेबी कूल” जैसे परिणाम मिल रहे थे, जबकि वास्तव में कहा गया था “बधाई हो! लड़का या लड़की?”। एक अच्छी तरह से प्रशिक्षित भाषा मॉडल को ऐसे प्रतिलेखन को समाप्त कर देना चाहिए था। हालांकि यह एक चरम उदाहरण है, अक्सर, प्रत्येक प्रतिलेखन में एक त्रुटि होती थी। त्रुटि कितनी भी छोटी क्यों न हो, जैसे कि एक लापता लेख या गलत समझा गया शब्द, कोई भी गलती विचलित करने वाली होती है और प्रतिलेखन सेवा की प्रतिष्ठा को आसानी से बर्बाद कर सकती है।
विंडोज अपडेट
कुछ हफ़्तों बाद, टीम ने देर रात तक काम करके यह सुनिश्चित किया कि हमारा उत्पाद कुछ ही दिनों में होने वाले ग्राहक प्रदर्शन के लिए तैयार है। हमारा मीटिंग ट्रांसक्राइबर तीन अलग-अलग विंडोज लैपटॉप पर सुचारू रूप से चला। फिर एक दिन अचानक, हम केवल एक काम करने वाले कंप्यूटर तक सीमित हो गए, भले ही किसी ने कोड को छुआ नहीं था। हमने अपने नेटवर्क का परीक्षण किया, अपने फ़ायरवॉल की जाँच की, जो कुछ भी हम सोच सकते थे जिससे अचानक हमारा उत्पाद विफल हो सकता था। हमारा अंतिम अनुमान यह था कि एक आश्चर्यजनक विंडोज अपडेट ने Azure Speech SDK को हमारे दो कंप्यूटरों के साथ अस्पष्ट रूप से असंगत बना दिया जब हमने तीनों सिस्टमों की बिट-बाय-बिट तुलना की। हमारे शोकेस के तेजी से आने के साथ, तनाव और तनाव एक टूटने वाले बिंदु पर थे। केवल एक सिस्टम शेष होने के कारण, टीम ने एक समझौता किया: कोड में कोई बदलाव नहीं और बिल्कुल कोई अपडेट नहीं। इस परीक्षा के बाद, हम काफी थे।
आधुनिक बैठकों से परे
इन बाधाओं से बचने के लिए, Seasalt.ai के दल ने Azure के संवादात्मक ट्रांसक्राइबर की क्षमताओं का मुकाबला करने के लिए अपने स्वयं के ध्वनिक और भाषा मॉडल को प्रशिक्षित करना शुरू कर दिया। पूरी प्रक्रिया के दौरान, हमने लगातार सवाल पूछा, हम यहां से कहां जाते हैं? हम इस पहले से ही महत्वपूर्ण उत्पाद का विस्तार कैसे कर सकते हैं?
आधुनिक बैठकों ने भाषण से पाठ की मजबूत क्षमता का प्रदर्शन किया, लेकिन यह वहीं रुक जाता है। यह हमारी बात सुन सकता है, लेकिन अगर हम इसे हमारे लिए सोचने दें तो क्या होगा। केवल प्रतिलेखन के साथ, जबकि उत्पाद प्रभावशाली है, अनुप्रयोग कुछ हद तक सीमित हैं। भाषण प्रतिलेखन से भाषण बुद्धिमत्ता की ओर बढ़ना उन चीजों के लिए दरवाजे खोलता है जिन्हें हम बना सकते हैं। बुद्धिमत्ता के उदाहरणों में बैठक सारांश, विषय अमूर्तता और कार्रवाई निष्कर्षण शामिल हैं। अंत में, एक आश्चर्यजनक पैकेज में सब कुछ एक साथ बांधने के लिए एक सुंदर इंटरफ़ेस डिजाइन करना।
और यह अब तक की कहानी है, Seasalt.ai की यात्रा की शुरुआत तेजी से विकसित हो रहे बाजार में सर्वश्रेष्ठ व्यावसायिक समाधान लाने और उन्हें दुनिया तक पहुंचाने के लिए। यदि आप विवरणों के बारे में अधिक जानना चाहते हैं, तो कृपया ब्लॉग श्रृंखला के बाकी हिस्सों को पढ़ना जारी रखें।