இந்த வலைப்பதிவுத் தொடர் முழுவதும், Seasalt.ai இன் பயணத்தைப் பின்தொடரவும், இது ஒரு முழுமையான நவீன சந்திப்பு அனுபவத்தை உருவாக்குகிறது, அதன் தாழ்மையான தொடக்கத்திலிருந்து, வெவ்வேறு வன்பொருள் மற்றும் மாதிரிகளில் எங்கள் சேவையை மேம்படுத்துவது வரை, அதிநவீன NLP அமைப்புகளை ஒருங்கிணைப்பது வரை, இறுதியாக SeaMeet, எங்கள் கூட்டு நவீன சந்திப்பு தீர்வுகளின் முழுமையான உணர்தலுடன் முடிவடைகிறது.
நவீன சந்திப்புகளின் ஆபத்துகள்
எங்கள் வளர்ச்சி முழுவதும், தெளிவான காரணங்கள் அல்லது தீர்வுகள் இல்லாமல் பல கணிக்க முடியாத தடைகளை நாங்கள் சந்தித்தோம்.
ஒரு விரைவான தொடக்கம்
முதல் தடை எங்கள் கருவிகளை வேலை செய்ய வைப்பதாகும். Azure ஒரு நவீன சந்திப்பு மாதிரியை வழங்கியது, இது Linux உடன் இணக்கமாக இருந்ததில் நாங்கள் மகிழ்ச்சியடைந்தோம், ஆனால் Windows இல் SDK ஐப் பயன்படுத்தி டெமோவை இயக்குவது மிகவும் எளிதானது என்பதை நாங்கள் கண்டறிந்தோம் - சரி, அது ஒரு மைக்ரோசாப்ட் தயாரிப்புதான். வழங்கப்பட்ட மாதிரியை Linux இல் இயக்க பல தோல்வியுற்ற முயற்சிகளுக்குப் பிறகு, நாங்கள் இறுதியாக அந்த பாதையை கைவிட்டு Windows க்கு திரும்ப வேண்டியிருந்தது. இறுதியாக எங்களிடம் ஒரு செயல்படும் பேச்சு டிரான்ஸ்கிரைபர் இருந்தது, இது ஒரு மிகப்பெரிய தொடக்கமாகும்.
தாமதம்
நாங்கள் அனுபவித்த ஒரு சிக்கல், எங்கள் அங்கீகார முடிவுகளை முன்-இறுதி UI இல் பெறுவதில் தோராயமாக ஐந்து வினாடிகள் தாமதம் ஏற்பட்டது. 5 வினாடிகள் மிகவும் விரைவாகத் தோன்றினாலும், இந்த தாமதம் ஒரு வசதியான மற்றும் நடைமுறை தீர்வாக இருப்பதில் சில வினாடிகள் மெதுவாக உள்ளது, குறிப்பாக நிகழ்நேர தொடர்புக்கு.

Azure Speech SDK ஆல் வழங்கப்பட்ட பேச்சுப் பதிவிற்கான இயல்புநிலை UI
பின்தளத்திலும் தாமதம் ஒரு தீவிரமான பிரச்சினையாக இருந்தது. ஒவ்வொரு சந்திப்பின் தொடக்கத்திலும், முடிவுகள் நிகழ்நேரத்தில் வந்தன (விளம்பரப்படுத்தப்பட்டபடி!), ஆனால் சந்திப்பு தொடர்ந்தபோது, திரைகளில் உரை தோன்றுவதற்கு முன்பு தாமதம் அவ்வப்போது முப்பது வினாடிகள் வரை உயர்ந்தது. அந்த நேரத்தில், சொல்லப்பட்ட அனைத்தும் உரையாடலில் நீண்ட காலமாக பொருத்தமற்றதாகிவிட்டன. எண்ணற்ற சோதனைகளுக்குப் பிறகு, தாமதம் நாள் முழுவதும் மாறுவதை நாங்கள் கவனிக்கத் தொடங்கினோம், இது அந்த நேரத்தில் Azure இன் சர்வர் சுமைக்கு நாங்கள் காரணம் கூறினோம். நாங்கள் ஒரு நிலையான, நம்பகமான தயாரிப்பை உருவாக்கும் வணிகத்தில் இருக்கிறோம், எனவே இந்த ஏற்ற இறக்கமான மற்றும் கணிக்க முடியாத தாமதங்கள் ஏற்றுக்கொள்ள முடியாதவை. எங்கள் சொந்த மாதிரிகள் மற்றும் சேவையகங்களை நம்புவதற்கு இன்னும் பல காரணங்கள்.
வட்டார வழக்கு
நாங்கள் முதலில் Azure Speech Service ஐப் பயன்படுத்திய ஒரு குறிப்பிட்ட காரணம், பலவிதமான மொழிகள் மற்றும் வட்டார வழக்குகளுக்கு அவர்களின் பரந்த ஆதரவுதான். Azure Speech Service இன் சிங்கப்பூர் ஆங்கில மாதிரியைப் பயன்படுத்த நாங்கள் குறிப்பாக உற்சாகமாக இருந்தோம். ஆனால் சிங்கப்பூர் வட்டார வழக்குக்கு, அமெரிக்க ஆங்கில மாதிரி சிங்கப்பூர் ஆங்கில மாதிரியை விட தொடர்ந்து சிறப்பாக செயல்பட்டது என்பதைக் கண்டறிந்ததில் எங்கள் ஆச்சரியத்தை கற்பனை செய்து பாருங்கள். மேலும், சிறந்த மாதிரி கூட நிஜ உலக சவால்களை பூர்த்தி செய்யவில்லை.

“வாழ்த்துக்கள்! ஆண் குழந்தை அல்லது பெண் குழந்தை?” என்பதன் விளைவாகப் பதிவுசெய்யப்பட்டது
“ola regulations may be boiled baby cool” போன்ற முடிவுகளை நாங்கள் கண்டோம், அதே நேரத்தில் உச்சரிப்பு உண்மையில் “வாழ்த்துக்கள்! ஆண் குழந்தை அல்லது பெண் குழந்தை?” என்பதாகும். நன்கு பயிற்சி பெற்ற மொழி மாதிரி அத்தகைய பதிவை நீக்கியிருக்க வேண்டும். இது ஒரு தீவிரமான உதாரணம் என்றாலும், பெரும்பாலும், ஒவ்வொரு பதிவிலும் ஒரு பிழை இருக்கும். ஒரு சிறிய பிழை கூட, ஒரு காணாமல் போன கட்டுரை அல்லது தவறாகப் புரிந்துகொள்ளப்பட்ட சொல் போன்ற எந்தவொரு பிழையும் கவனத்தை சிதறடிக்கும் மற்றும் ஒரு பதிவு சேவையின் நற்பெயரை எளிதில் கெடுத்துவிடும்.
Windows புதுப்பிப்பு
சில வாரங்களுக்குப் பிறகு, எங்கள் தயாரிப்பு சில நாட்களில் வாடிக்கையாளர் விளக்கக்காட்சிக்கு தயாராக இருப்பதை உறுதிப்படுத்த குழு இரவு பகலாக உழைத்தது. எங்கள் சந்திப்பு டிரான்ஸ்கிரைபர் மூன்று தனித்தனி விண்டோஸ் மடிக்கணினிகளில் சீராக இயங்கியது. பின்னர் ஒரு நாள் திடீரென்று, யாரும் குறியீட்டைத் தொடாத போதிலும், நாங்கள் ஒரு வேலை செய்யும் கணினிக்கு மட்டுமே குறைக்கப்பட்டோம். எங்கள் நெட்வொர்க்குகளை சோதித்தோம், எங்கள் ஃபயர்வால்களை சரிபார்த்தோம், எங்கள் தயாரிப்பு திடீரென்று தோல்வியடையக்கூடிய எதையும் நாங்கள் சிந்தித்தோம். எங்கள் கடைசி யூகம் என்னவென்றால், ஒரு ஆச்சரியமான விண்டோஸ் புதுப்பிப்பு Azure Speech SDK ஐ எங்கள் இரண்டு கணினிகளுடன் விளக்க முடியாத வகையில் இணக்கமற்றதாக மாற்றியது, நாங்கள் மூன்று அமைப்புகளையும் பிட் பை பிட் ஒப்பிட்டபோது. எங்கள் காட்சி வேகமாக வருவதால், மன அழுத்தம் மற்றும் பதற்றம் ஒரு முறிவு புள்ளியில் இருந்தன. ஒரே ஒரு அமைப்பு மட்டுமே எஞ்சியிருந்ததால், குழு ஒரு ஒப்பந்தம் செய்தது: குறியீட்டை மாற்றக்கூடாது மற்றும் முற்றிலும் புதுப்பிப்புகள் இல்லை. இந்த சோதனைகளுக்குப் பிறகு, எங்களுக்குப் போதும்.
நவீன சந்திப்புகளுக்கு அப்பால்
இந்த தடைகளிலிருந்து தப்பிக்க, Seasalt.ai குழு Azure இன் உரையாடல் டிரான்ஸ்கிரைபரின் திறன்களுக்கு போட்டியிட எங்கள் சொந்த ஒலி மற்றும் மொழி மாதிரிகளைப் பயிற்றுவிக்கத் தொடங்கியது. முழு செயல்முறை முழுவதும், நாங்கள் தொடர்ந்து கேள்வி கேட்டோம், இங்கிருந்து எங்கு செல்வது? இந்த ஏற்கனவே கருவியான தயாரிப்பை எவ்வாறு விரிவாக்க முடியும்?
நவீன சந்திப்புகள் வலுவான பேச்சு-க்கு-உரை திறனைக் காட்டின, ஆனால் அது அங்கேதான் நிற்கிறது. அது நமக்குச் செவிசாய்க்க முடியும், ஆனால் அது நமக்காக சிந்திக்க முடிந்தால் என்ன செய்வது? வெறும் பதிவுகளுடன், தயாரிப்பு ஈர்க்கக்கூடியதாக இருந்தாலும், பயன்பாடுகள் ஓரளவு வரையறுக்கப்பட்டவை. பேச்சுப் பதிவிலிருந்து பேச்சு நுண்ணறிவை நோக்கிச் செல்வது, நாம் உருவாக்கக்கூடியவற்றில் பரந்த கதவுகளைத் திறக்கிறது. நுண்ணறிவின் எடுத்துக்காட்டுகளில் சந்திப்பு சுருக்கங்கள், தலைப்பு சுருக்கம் மற்றும் செயல் பிரித்தெடுத்தல் ஆகியவை அடங்கும். இறுதியாக, அனைத்தையும் ஒரு அற்புதமான தொகுப்பில் இணைக்க ஒரு அழகான இடைமுகத்தை வடிவமைத்தல்.
இதுவரை இதுதான் கதை, வேகமாக வளர்ந்து வரும் சந்தைக்கு சிறந்த வணிக தீர்வுகளை கொண்டு வந்து உலகிற்கு வழங்குவதற்கான Seasalt.ai இன் பயணத்தின் தொடக்கம். விவரங்களைப் பற்றி மேலும் அறிய விரும்பினால், வலைப்பதிவுத் தொடரின் மீதமுள்ள பகுதிகளைப் படிக்கவும்.