इस ब्लॉग श्रृंखला के दौरान, सीसाल्ट.एआई की एक अच्छी तरह से गोल आधुनिक बैठक अनुभव बनाने की यात्रा का अनुसरण करें, इसकी विनम्र शुरुआत से, विभिन्न हार्डवेयर और मॉडलों पर हमारी सेवा को अनुकूलित करने, अत्याधुनिक एनएलपी सिस्टम को एकीकृत करने और अंत में सीमीट, हमारे सहयोगी आधुनिक बैठक समाधानों की पूर्ण प्राप्ति पर समाप्त होने तक।
आधुनिक बैठकों का भविष्य
माइक्रोसॉफ्ट बिल्ड 2019 में, माइक्रोसॉफ्ट ने दर्शकों को तब उत्साहित किया जब उन्होंने अपने क्लाउड कंप्यूटिंग समाधानों में नवीनतम का अनावरण किया: एज़्योर स्पीच सर्विसेज, विशेष रूप से उनका मीटिंग ट्रांसक्रिप्शन एप्लिकेशन। इसकी शुरुआत के बाद, यह वार्तालाप ट्रांसक्राइबर तुरंत सभी के रडार पर आ गया और शीर्ष तकनीकी ब्लॉगों और पत्रिकाओं में इसका उल्लेख किया गया। 2019 में नीचे दिए गए वीडियो में सचित्र प्रदर्शन ने एज़्योर स्पीच सर्विसेज से बहुत अधिक शक्ति दिखाई। हमें बहुत कम पता था कि यह जल्दी ही इस बात का प्रस्तावना बन गया कि वैश्विक महामारी और महामारी के बाद की सेटिंग में आधुनिक बैठकें कैसे आयोजित की जाएंगी: भौतिक से आभासी से हाइब्रिड तक।

एक वार्तालाप ट्रांसक्रिप्शन प्लेटफॉर्म के रूप में विज्ञापित, एज़्योर की मीटिंग ट्रांसक्रिप्शन सेवा के लिए माइक्रोसॉफ्ट का शोकेस, जिसे उपयुक्त रूप से “आधुनिक बैठकों का भविष्य” के रूप में पेश किया गया, ने अपनी नई सेवा को एक मजबूत, कुशल स्पीच-टू-टेक्स्ट (एसटीटी) प्लेटफॉर्म के रूप में स्थापित किया, जो उन सभी व्यवसायों के लिए उपयुक्त है जो अपने सभी महत्वपूर्ण सम्मेलनों को जल्दी और बड़े करीने से पकड़ने का एक तरीका खोज रहे हैं।
इस सेवा को मीटिंग ट्रांसक्रिप्शन का शिखर क्या बनाता है? सबसे पहले, रीयल-टाइम प्रदर्शन। जैसे-जैसे तकनीक तेज और तेज होती जाती है, धैर्य और भी पतला होता जाता है, जहां कुछ सेकंड की देरी भी औसत उपयोगकर्ता को परेशान करने के लिए पर्याप्त से अधिक होती है। फिर भी माइक्रोसॉफ्ट ने साबित कर दिया कि उनका वार्तालाप ट्रांसक्राइबर पर्याप्त से अधिक तेज है, कुछ बंद कैप्शनिंग सेवाओं की तुलना में तेजी से सटीक ट्रांसक्रिप्शन प्रदान करता है, जिससे अकेले पाठ के साथ एक समवर्ती वार्तालाप का पालन करना पूरी तरह से संभव हो जाता है।
इसके बाद, माइक्रोसॉफ्ट ने अपनी स्पीकर पहचान क्षमताओं का भी प्रदर्शन किया। असंगठित संवादी पाठ के ढेर के साथ समाप्त होना निराशाजनक और बेकार है, लेकिन स्पीकर पहचान स्वचालित रूप से प्रत्येक कथन को स्पीकर के साथ लेबल करती है जिससे एक आसानी से उपभोग्य प्रारूप बनता है।
हर दिन, कंप्यूटिंग हार्डवेयर दिन-ब-दिन अधिक शक्तिशाली होता जा रहा है और कंपनियां नवीनतम सीपीयू और जीपीयू से हर आखिरी कोर को निचोड़ने की कोशिश कर रही हैं। अक्सर पुरानी तकनीक अप्रचलन में चली जाती है और ग्राहकों को समाज में प्रासंगिक बने रहने के लिए हर कुछ वर्षों में अपग्रेड करने के लिए मजबूर किया जाता है। “आधुनिक बैठकों का भविष्य” में, माइक्रोसॉफ्ट ने एज़्योर स्पीच सर्विस को उपभोक्ता-ग्रेड हार्डवेयर पर चलाने के लिए अनुकूलित किया, जबकि भारी गणना को अपने अंत में रखा, जिससे पहले से ही विशाल आबादी का विस्तार हुआ जो इस सेवा से लाभान्वित हो सकती है।
एज़्योर की मीटिंग ट्रांसक्रिप्शन सेवा हमारे व्यापार करने के तरीके को अनुकूलित करने के लिए खड़ी है। हर एक संगठन को अपने वर्कफ़्लो में इस तरह के उत्पाद को शामिल करना अच्छा होगा। एक औसत दिन में, जानकारी लगातार बह रही है और हर बिट उतना ही महत्वपूर्ण है जितना कि आखिरी, चाहे वह रिमाइंडर हो, कार्य हो, या अपडेट हो। बहुत बार चीजें दरारों में खो जाती हैं और इसका मतलब है समय और मुनाफे की बर्बादी। माइक्रोसॉफ्ट का समाधान जो प्रदान करता है वह एक पूर्ण, स्वचालित रूप से उत्पन्न रिकॉर्ड है जो ठीक से चित्रित करता है कि क्या कहा गया था और किसने कहा था, इसलिए लापता जानकारी और एक विशिष्ट खंड के लिए लंबी ऑडियो रिकॉर्डिंग के माध्यम से आँख बंद करके शिकार करने के दिन चले गए। अब, आपको आवश्यक सभी जानकारी बड़े करीने से आपके लिए रखी गई है ताकि आप जितनी बार चाहें उतनी बार इसका संदर्भ ले सकें। यह तकनीक पहले से कहीं अधिक महत्वपूर्ण है। अगर 2020 के वर्ष ने हमें कुछ सिखाया है तो वह है लचीलेपन की आवश्यकता, खासकर कार्यस्थल में। लोग बीमार पड़ते हैं और अप्रत्याशित घटनाएं होती हैं, इसलिए कर्मचारियों से हर चर्चा में भाग लेने की उम्मीद करना वस्तुतः असंभव है। आधुनिक बैठकों के साथ, हम इन अप्रत्याशित विकासों को समायोजित करने में सक्षम होने के एक कदम और करीब हैं, अनिवार्य रूप से हर किसी को वास्तव में वहां हुए बिना वहां होने की क्षमता देकर।
आधुनिक बैठकों का कार्यान्वयन
2020 के मध्य में, हमें सिंगापुर में एक सरकारी ग्राहक से प्रस्ताव के लिए एक अनुरोध प्राप्त हुआ। हाँ, यह अभी भी महामारी थी। लेकिन सिंगापुर ने इसे नियंत्रण में रखा था, इसलिए सरकारी बैठकें अभी भी भौतिक सम्मेलन कक्षों में होती थीं। वे एक आधुनिक समाधान चाहते थे जो 12 अलग-अलग वक्ताओं तक के भाषण को ट्रांसक्राइब कर सके। इसके अलावा, स्पीकर पहचान यहां एक महत्वपूर्ण भूमिका निभाएगी।
स्पीकर पहचान पर, एज़्योर जो प्रदान करता है और ग्राहक को जो चाहिए, उसके बीच एक महत्वपूर्ण अंतर आवाज “नामांकन” है: एज़्योर को सिस्टम में अपने वॉयसप्रिंट को नामांकित करने के लिए सभी वक्ताओं से कुछ पूर्व-रिकॉर्ड की गई आवाज की आवश्यकता होती है। हालांकि, कुछ संभवतः बहुत महत्वपूर्ण सरकारी अधिकारियों से रिकॉर्ड किए जाने के लिए माइक्रोफोन के सामने बैठने के लिए कहना असंभव है। हमने पहले अनसुsupervised स्पीकर क्लस्टरिंग (जिसे स्पीकर डायराइजेशन भी कहा जाता है) करके प्रक्रिया में कुछ अनुकूलन किया। विचार यह है कि यदि कोई वक्ता हमारे सिस्टम में एक बार बोल चुका है, तो हम अगली बार जब वे बोलेंगे तो उन्हें पहचान लेंगे।
एज़्योर कन्वर्सेशन ट्रांसक्रिप्शन से आधुनिक बैठकों की वास्तुकला। हमारे अनुकूलन में, हमने बैठक से पहले “उपयोगकर्ता नामांकन” की आवश्यकता को बैठक के बाद तक शिथिल कर दिया।
फिर हमने जल्दी से पूरे प्रोजेक्ट के लिए अपना शस्त्रागार इकट्ठा किया। पहला कदम एक उच्च गुणवत्ता वाले माइक्रोफोन सरणी का स्रोत बनाना था जो हमारे मान्यता मॉडल को क्रिस्टल स्पष्ट ऑडियो डेटा प्रदान करेगा। हम तुरंत एज़्योर किनेक्ट से आकर्षित हुए: एक स्टाइलिश, 7 माइक्रोफोन सरणी जो एक पूर्ण एल्यूमीनियम आवरण में रखी गई है जिसमें एक उच्च परिभाषा कैमरा और गहराई सेंसर का अतिरिक्त बोनस है।

$400 का एज़्योर किनेक्ट डीके आधुनिक बैठकों के लिए उपयोग किया जाता है
अकेले दिखने से, यह एक वास्तव में परिष्कृत उपकरण है जो किसी भी सम्मेलन कक्ष को पूरक करेगा, लेकिन इससे भी महत्वपूर्ण बात यह है कि शक्तिशाली माइक्रोफोन सरणी ने उस गुणवत्ता का वादा किया जिसकी हम तलाश कर रहे थे। गोलाकार व्यवस्था के साथ, सात माइक्रोफोन ने स्रोत स्थानीयकरण और बीमफॉर्मिंग जैसी अत्याधुनिक सिग्नल प्रोसेसिंग तकनीकों का उपयोग करने की संभावना को खोल दिया। यह माइक्रोफोन हमारे बैकएंड के साथ भी सही जोड़ी थी जिसने एज़्योर की स्पीच सर्विसेज का उपयोग किया, एक स्थापित स्पीच-टू-टेक्स्ट प्लेटफॉर्म जिसने हमारे उत्पाद को एक शीर्ष पंक्ति मीटिंग ट्रांसक्राइबर होने के लिए आवश्यक शक्ति दी।

एज़्योर किनेक्ट डीके आवाज़ उठाने के लिए 7 माइक्रोफोन सरणी के साथ आता है
जबकि एज़्योर ने सीमीट का अंतिम कट नहीं बनाया, इसने हमें अपनी दृष्टि को साकार करने में सक्षम होने के लिए आवश्यक शुरुआत दी। अंत में हमने इस सब को एक यूजर इंटरफेस के साथ जोड़ा। हमारे पहले पुनरावृत्ति में, हमने एक सामान्य, जावा-आधारित डिज़ाइन के साथ काम किया, जो सादा होने पर, पूरी तरह कार्यात्मक था। क्योंकि किनेक्ट डिवाइस बाहरी कोड नहीं चला सकता है, यह सब एक अतिरिक्त एकल विंडोज लैपटॉप पर चलना था। भले ही यह पहली बार में थोड़ा मोटा था, हमें यह कहते हुए गर्व हो रहा था कि हमारे पास पूरी तरह कार्यात्मक मीटिंग ट्रांसक्रिप्शन उत्पाद है।

एज़्योर किनेक्ट और एक विंडोज कंप्यूटर के साथ आधुनिक बैठकों को लागू करना, जो रीयल-टाइम मीटिंग ट्रांसक्रिप्शन और स्पीकर पहचान दिखाने के लिए एक साधारण जावा-आधारित यूआई चलाता है।
आधुनिक बैठकों को तैनात करना
मई 2021 में, हमारे इंजीनियर अवधारणा के प्रमाण के रूप में हमारे आधुनिक व्यापार समाधान को तैनात करने के लिए सिंगापुर पहुंचे। दो अन्य प्रतिस्पर्धी कंपनियों के खिलाफ खड़ा किया गया, हम में से प्रत्येक को बैठकों के भविष्य की हमारी दृष्टि का प्रदर्शन करने का काम सौंपा गया था।
इस तथ्य के बावजूद कि पिछले दशक में वायरलेस आदर्श बन गया था, हमने पाया कि हमारे प्रतिस्पर्धियों ने अभी भी एक वायर्ड समाधान का विकल्प चुना है। जैसा कि आप तस्वीर से देख सकते हैं, 12 वक्ताओं में से प्रत्येक को एक व्यक्तिगत माइक्रोफोन से जोड़ा गया था। एक वक्ता को सिस्टम द्वारा अपनी आवाज उठाने के लिए क्लोज-टॉक सेटिंग में सीधे माइक्रोफोन में बोलना पड़ता था। यह न केवल लचीलेपन को गंभीर रूप से बाधित करता है, बल्कि इस तरह का सेटअप जटिल एवी उपकरणों के साथ जटिलता को भी गुणा करता है। हमारा समाधान, दूसरी ओर, 7 माइक्रोफोन सरणी और सिग्नल प्रोसेसिंग एल्गोरिदम के लिए धन्यवाद, दूर-क्षेत्र क्षमताओं द्वारा पूरी तरह से संचालित है।
कुछ हद तक, हमारा समाधान “एलेक्सा फॉर बिजनेस” जैसा ही था: एक उपकरण पूरे कमरे को कवर करता है, जिसमें केवल एक पावर केबल की आवश्यकता होती है। हमारे प्रतिस्पर्धियों के समाधान की तुलना में, हमारा समाधान इस अर्थ में पीढ़ियों आगे है कि हम वास्तव में आधुनिक व्यवसायों की जरूरतों को समझते हैं जबकि वे अभी भी पूरी तरह से पुरानी वायर्ड पीढ़ी में फंसे हुए हैं।

पीओसी सम्मेलन कक्ष सेटअप। 2 घंटे की सरकारी बैठक का अनुकरण करने वाले 12 वक्ता थे।

साइट पर सभी उपकरणों का एक नज़दीकी शॉट।
टीम भारी अंतर देखकर उत्साहित थी। कुछ घंटों की ट्यूनिंग के साथ, अंतिम पीओС बहुत सुचारू रूप से चला गया। टीम ने पीओС के बाद सिंगापुर में एक दौरे का भी आनंद लिया, एक ऐसे देश में जहां कोविड-19 को सख्ती से नियंत्रित किया गया था ताकि जीवन और व्यवसाय सामान्य रूप से चले।
आधुनिक बैठकों से परे
सिंगापुर में हमारे समय के दौरान, हमारे विचार एक सफल पीओС से परे चले गए: अन्य प्रतिस्पर्धी समाधानों की तुलना में, हमारा 10 गुना बेहतर था। लेकिन हम खुद से 10 गुना बेहतर कैसे कर सकते थे? कृपया इस श्रृंखला में अगले ब्लॉग के लिए हमारे चरणों का पालन करें।