Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
จากการสาธิตสู่ความสำเร็จ: การนำการประชุมสมัยใหม่ของ Microsoft ไปใช้และอื่นๆ (1/5)

จากการสาธิตสู่ความสำเร็จ: การนำการประชุมสมัยใหม่ของ Microsoft ไปใช้และอื่นๆ (1/5)

ในส่วนแรกของซีรีส์บล็อกนี้ ติดตามการเดินทางของ Seasalt.ai เพื่อสร้าง SeaMeet โซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเรา

SeaMeet

ตลอดซีรีส์บล็อกนี้ ติดตามการเดินทางของ Seasalt.ai เพื่อสร้างประสบการณ์การประชุมสมัยใหม่ที่รอบด้าน เริ่มต้นจากจุดเริ่มต้นที่เรียบง่าย ไปจนถึงการปรับปรุงบริการของเราบนฮาร์ดแวร์และโมเดลต่างๆ ไปจนถึงการผสานรวมระบบ NLP ที่ล้ำสมัย และสุดท้ายจบลงด้วยการตระหนักถึง SeaMeet โซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเราอย่างเต็มรูปแบบ

อนาคตของการประชุมสมัยใหม่

การสาธิตบริการแปลงคำพูดเป็นข้อความของ Microsoft จาก MS Build 2019

ที่ Microsoft Build 2019 Microsoft ได้ปลุกเร้าผู้ชมเมื่อพวกเขาเปิดตัวโซลูชันคลาวด์คอมพิวติ้งล่าสุดของพวกเขา: Azure Speech Services โดยเฉพาะอย่างยิ่งแอปพลิเคชันการถอดความการประชุมของพวกเขา หลังจากการเปิดตัว ตัวถอดความการสนทนานี้ก็ปรากฏบนเรดาร์ของทุกคนทันทีและได้รับการกล่าวถึงในบล็อกและวารสารเทคโนโลยีชั้นนำ การสาธิตซึ่งแสดงในวิดีโอด้านล่างในปี 2019 ได้แสดงให้เห็นถึงพลังของ Azure Speech Services อย่างมาก เราไม่รู้เลยว่ามันจะกลายเป็นบทนำของการประชุมสมัยใหม่ที่จะจัดขึ้นในสถานการณ์การระบาดใหญ่ทั่วโลกและหลังการระบาดใหญ่: จากทางกายภาพไปสู่เสมือนจริงไปสู่แบบผสมผสาน

การสาธิตสดของบริการแปลงคำพูดเป็นข้อความและการระบุผู้พูดของ Microsoft Azure ที่ MS Build 2019

โฆษณาว่าเป็นแพลตฟอร์มการถอดความการสนทนา การจัดแสดงของ Microsoft สำหรับบริการถอดความการประชุมของ Azure ซึ่งได้รับการแนะนำอย่างเหมาะสมว่าเป็น “อนาคตของการประชุมสมัยใหม่” ได้สร้างบริการใหม่ของพวกเขาให้เป็นแพลตฟอร์มแปลงคำพูดเป็นข้อความ (STT) ที่แข็งแกร่งและมีประสิทธิภาพ เหมาะสำหรับธุรกิจทุกประเภทที่กำลังมองหาวิธีที่รวดเร็วและเรียบร้อยในการบันทึกการประชุมที่สำคัญทั้งหมดของพวกเขา

อะไรทำให้บริการนี้เป็นสุดยอดของการถอดความการประชุม? ประการแรก ประสิทธิภาพแบบเรียลไทม์ เมื่อเทคโนโลยีเร็วขึ้นเรื่อยๆ ความอดทนก็ยิ่งน้อยลงเรื่อยๆ ซึ่งแม้แต่ความล่าช้าเพียงไม่กี่วินาทีก็เพียงพอที่จะทำให้ผู้ใช้ทั่วไปรำคาญได้ แต่ Microsoft ได้พิสูจน์แล้วว่าตัวถอดความการสนทนาของพวกเขานั้นเร็วกว่ามาก โดยให้การถอดความที่แม่นยำเร็วกว่าบริการคำบรรยายภาพบางบริการ ทำให้สามารถติดตามการสนทนาพร้อมกันด้วยข้อความเพียงอย่างเดียวได้อย่างสมบูรณ์

ต่อไป Microsoft ยังได้แสดงความสามารถในการระบุผู้พูดของพวกเขา การจบลงด้วยข้อความการสนทนาที่ไม่เป็นระเบียบนั้นน่าหงุดหงิดและไร้ประโยชน์ แต่การระบุผู้พูดจะติดป้ายกำกับแต่ละคำพูดโดยอัตโนมัติพร้อมกับผู้พูดซึ่งสร้างรูปแบบที่บริโภคง่าย

ส่วนต่อประสานผู้ใช้ของบริการแปลงคำพูดเป็นข้อความและการระบุผู้พูดของ Microsoft Azure

ทุกวันนี้ ฮาร์ดแวร์คอมพิวเตอร์มีประสิทธิภาพมากขึ้นทุกวัน และบริษัทต่างๆ ก็พยายามที่จะบีบทุกคอร์สุดท้ายจาก CPU และ GPU ล่าสุด บ่อยครั้งที่เทคโนโลยีเก่าล้าสมัยและลูกค้าถูกบังคับให้อัปเกรดทุกสองสามปีเพียงเพื่อที่จะยังคงมีความเกี่ยวข้องในสังคม ใน “อนาคตของการประชุมสมัยใหม่” Microsoft ได้ปรับปรุง Azure Speech Service ให้ทำงานบนฮาร์ดแวร์ระดับผู้บริโภคในขณะที่ยังคงการคำนวณที่หนักหน่วงไว้ที่ฝั่งของพวกเขา ซึ่งเป็นการขยายประชากรจำนวนมากที่สามารถได้รับประโยชน์จากบริการนี้อยู่แล้ว

บริการถอดความการประชุมของ Azure ยืนหยัดที่จะปรับปรุงวิธีการดำเนินธุรกิจของเรา ทุกองค์กรควรที่จะรวมผลิตภัณฑ์เช่นนี้เข้ากับเวิร์กโฟลว์ของตน ในวันปกติ ข้อมูลจะไหลอย่างต่อเนื่องและทุกบิตมีความสำคัญพอๆ กับบิตสุดท้าย ไม่ว่าจะเป็นการเตือนความจำ งาน หรือการอัปเดต บ่อยครั้งที่สิ่งต่างๆ หายไปในรอยแตกและนั่นหมายถึงการเสียเวลาและผลกำไรที่สูญเปล่า สิ่งที่โซลูชันของ Microsoft นำเสนอคือบันทึกที่สมบูรณ์และสร้างขึ้นโดยอัตโนมัติซึ่งแสดงให้เห็นอย่างชัดเจนว่ามีอะไรพูดและใครพูด ดังนั้นจึงหมดสมัยของการพลาดข้อมูลและการตามล่าอย่างสุ่มสี่สุ่มห้าผ่านการบันทึกเสียงที่ยาวนานสำหรับส่วนเฉพาะ ตอนนี้ ข้อมูลทั้งหมดที่คุณต้องการถูกจัดวางอย่างเรียบร้อยเพื่อให้คุณอ้างอิงได้บ่อยเท่าที่คุณต้องการ เทคโนโลยีนี้มีความสำคัญมากกว่าที่เคย หากปี 2020 สอนอะไรเรา นั่นคือความต้องการความยืดหยุ่น โดยเฉพาะอย่างยิ่งในที่ทำงาน ผู้คนป่วยและเหตุการณ์ที่ไม่คาดฝันเกิดขึ้น ดังนั้นจึงแทบจะเป็นไปไม่ได้เลยที่จะคาดหวังให้พนักงานเข้าร่วมทุกการสนทนา ด้วยการประชุมสมัยใหม่ เราเข้าใกล้ความสามารถในการรองรับการพัฒนาที่ไม่คาดคิดเหล่านี้ไปอีกขั้นโดยการให้ทุกคนสามารถอยู่ที่นั่นได้โดยไม่ต้องอยู่ที่นั่นจริงๆ

การนำการประชุมสมัยใหม่ไปใช้

ในช่วงกลางปี 2020 เราได้รับคำขอเสนอราคาจากลูกค้ารัฐบาลในสิงคโปร์ ใช่ มันยังคงเป็นการระบาดใหญ่ แต่สิงคโปร์ควบคุมได้ ดังนั้นการประชุมของรัฐบาลจึงยังคงจัดขึ้นในห้องประชุมจริง พวกเขาต้องการโซลูชันที่ทันสมัยที่สามารถถอดความคำพูดจากผู้พูดได้มากถึง 12 คน นอกจากนี้ การระบุผู้พูดจะมีบทบาทสำคัญที่นี่

เกี่ยวกับการระบุผู้พูด ความแตกต่างที่สำคัญอย่างหนึ่งระหว่างสิ่งที่ Azure นำเสนอและสิ่งที่ลูกค้าต้องการคือ “การลงทะเบียน” เสียง: Azure ต้องการเสียงที่บันทึกไว้ล่วงหน้าจากผู้พูดทุกคนเพื่อลงทะเบียนลายนิ้วมือเสียงของพวกเขาในระบบ อย่างไรก็ตาม เป็นไปไม่ได้ที่จะขอให้เจ้าหน้าที่รัฐบาลที่คาดว่ามีความสำคัญมากบางคนนั่งหน้าไมโครโฟนเพื่อบันทึกเสียง เราได้ทำการปรับเปลี่ยนกระบวนการโดยทำการจัดกลุ่มผู้พูดแบบไม่มีผู้ดูแลก่อน (เรียกอีกอย่างว่าการแยกผู้พูด) แนวคิดคือถ้าผู้พูดเคยพูดในระบบของเราแล้ว เราจะจำพวกเขาได้ในครั้งต่อไปที่พวกเขาพูด

แผนผังลำดับงานของบริการแปลงคำพูดเป็นข้อความและการระบุคำพูดของ Microsoft Azure

สถาปัตยกรรมของการประชุมสมัยใหม่จาก การถอดความการสนทนาของ Azure ในการปรับปรุงของเรา เราได้ผ่อนคลายข้อกำหนดของ “การลงทะเบียนผู้ใช้” ก่อนการประชุมเป็นหลังการประชุม

จากนั้นเราก็รวบรวมคลังแสงของเราสำหรับโครงการทั้งหมดอย่างรวดเร็ว ขั้นตอนแรกคือการจัดหาอาร์เรย์ไมโครโฟนคุณภาพสูงที่จะส่งข้อมูลเสียงที่คมชัดไปยังโมเดลการจดจำของเรา เราหลงใหลใน Azure Kinect ทันที: อาร์เรย์ไมโครโฟน 7 ตัวที่ทันสมัยซึ่งบรรจุอยู่ในเคสอลูมิเนียมทั้งหมดพร้อมโบนัสเพิ่มเติมของกล้องความละเอียดสูงและเซ็นเซอร์ความลึก

Azure Kinect DK มูลค่า 400 ดอลลาร์ใช้สำหรับการประชุมสมัยใหม่

Azure Kinect DK มูลค่า 400 ดอลลาร์ใช้สำหรับการประชุมสมัยใหม่

เพียงแค่ดูภายนอก นี่คืออุปกรณ์ที่ซับซ้อนอย่างแท้จริงที่จะช่วยเสริมห้องประชุมใดๆ แต่ที่สำคัญกว่านั้นคืออาร์เรย์ไมโครโฟนอันทรงพลังได้ให้คำมั่นสัญญาถึงคุณภาพที่เราต้องการ ด้วยการจัดเรียงแบบวงกลม ไมโครโฟนทั้งเจ็ดตัวได้เปิดโอกาสให้ใช้เทคนิคการประมวลผลสัญญาณที่ล้ำสมัย เช่น การหาตำแหน่งแหล่งกำเนิดและการสร้างลำแสง ไมโครโฟนนี้ยังเป็นการจับคู่ที่สมบูรณ์แบบกับแบ็กเอนด์ของเราซึ่งใช้บริการคำพูดของ Azure ซึ่งเป็นแพลตฟอร์มแปลงคำพูดเป็นข้อความที่ได้รับการยอมรับ ทำให้ผลิตภัณฑ์ของเรามีพลังที่จำเป็นในการเป็นตัวถอดความการประชุมชั้นนำ

Azure Kinect DK มาพร้อมกับอาร์เรย์ไมโครโฟน 7 ตัวเพื่อรับเสียง

Azure Kinect DK มาพร้อมกับอาร์เรย์ไมโครโฟน 7 ตัวเพื่อรับเสียง

แม้ว่า Azure จะไม่ได้เป็นส่วนสุดท้ายของ SeaMeet แต่ก็ได้ให้จุดเริ่มต้นที่เราต้องการเพื่อให้สามารถบรรลุวิสัยทัศน์ของเราได้ ในที่สุดเราก็ได้ผูกทั้งหมดนี้เข้ากับส่วนต่อประสานผู้ใช้ ในการทำซ้ำครั้งแรกของเรา เราใช้การออกแบบที่ใช้ Java ทั่วไป ซึ่งแม้จะเรียบง่าย แต่ก็ใช้งานได้อย่างสมบูรณ์แบบ เนื่องจากอุปกรณ์ Kinect ไม่สามารถรันโค้ดภายนอกได้ ทั้งหมดนี้จึงต้องทำงานบนแล็ปท็อป Windows เครื่องเดียวเพิ่มเติม แม้ว่าในตอนแรกมันจะดูหยาบไปหน่อย แต่เราก็ภูมิใจที่จะบอกว่าเรามีผลิตภัณฑ์ถอดความการประชุมที่ทำงานได้อย่างสมบูรณ์

การตั้งค่าเริ่มต้นของบริการ SeaMeet ของ Seasalt.ai โดยใช้อาร์เรย์ไมโครโฟน Microsoft Kinect

การนำการประชุมสมัยใหม่ไปใช้กับ Azure Kinect และคอมพิวเตอร์ Windows ซึ่งรัน UI ที่ใช้ Java แบบง่ายๆ เพื่อแสดงการถอดความการประชุมแบบเรียลไทม์และการระบุผู้พูด

การปรับใช้การประชุมสมัยใหม่

ในเดือนพฤษภาคม 2021 วิศวกรของเราเดินทางมาถึงสิงคโปร์เพื่อปรับใช้โซลูชันธุรกิจสมัยใหม่ของเราเพื่อเป็นข้อพิสูจน์แนวคิด เราต้องแข่งขันกับบริษัทคู่แข่งอีกสองแห่ง โดยแต่ละแห่งได้รับมอบหมายให้สาธิตวิสัยทัศน์ของเราเกี่ยวกับอนาคตของการประชุม

แม้ว่าความจริงที่ว่าไร้สายได้กลายเป็นบรรทัดฐานในช่วงทศวรรษที่ผ่านมา แต่เราพบว่าคู่แข่งของเรายังคงเลือกใช้โซลูชันแบบมีสาย ดังที่คุณเห็นจากภาพ ผู้พูดทั้ง 12 คนแต่ละคนถูกยึดไว้กับไมโครโฟนแต่ละตัว ผู้พูดต้องพูดโดยตรงกับไมโครโฟนในระยะใกล้เพื่อให้ระบบรับเสียงของพวกเขาได้ ไม่เพียงแต่จะขัดขวางความยืดหยุ่นอย่างรุนแรงเท่านั้น แต่การตั้งค่าดังกล่าวยังเพิ่มความซับซ้อนด้วยอุปกรณ์ AV ที่ซับซ้อนอีกด้วย ในทางกลับกัน โซลูชันของเราขับเคลื่อนโดยความสามารถระยะไกลอย่างเต็มที่ ต้องขอบคุณอาร์เรย์ไมโครโฟน 7 ตัวและอัลกอริธึมการประมวลผลสัญญาณ

ในระดับหนึ่ง โซลูชันของเราคล้ายกับ “Alexa สำหรับธุรกิจ” มาก: อุปกรณ์เครื่องเดียวครอบคลุมทั้งห้อง โดยต้องใช้สายไฟเพียงเส้นเดียว เมื่อเปรียบเทียบกับโซลูชันของคู่แข่งของเรา โซลูชันของเราล้ำหน้าไปหลายรุ่นในแง่ที่ว่าเราเข้าใจความต้องการของธุรกิจสมัยใหม่อย่างแท้จริง ในขณะที่พวกเขายังคงผูกติดอยู่กับรุ่นมีสายที่ล้าสมัยอย่างเต็มที่

การตั้งค่าห้องประชุม PoC มีผู้พูด 12 คนจำลองการประชุมรัฐบาล 2 ชั่วโมง

ภาพระยะใกล้ของอุปกรณ์ทั้งหมดในสถานที่

ทีมงานรู้สึกตื่นเต้นที่ได้เห็นความแตกต่างอย่างมาก ด้วยการปรับแต่งเพียงไม่กี่ชั่วโมง PoC สุดท้ายก็ดำเนินไปอย่างราบรื่นมาก ทีมงานยังได้เพลิดเพลินกับการทัวร์ในสิงคโปร์หลัง PoC ในประเทศที่ Covid-19 ถูกควบคุมอย่างเข้มงวดเพื่อให้ชีวิตและธุรกิจดำเนินไปตามปกติ

นอกเหนือจากการประชุมสมัยใหม่

ในช่วงเวลาที่เราอยู่ในสิงคโปร์ ความคิดของเราไปไกลกว่า PoC ที่ประสบความสำเร็จ: เมื่อเทียบกับโซลูชันคู่แข่งอื่นๆ โซลูชันของเราดีกว่า 10 เท่า แต่เราจะทำได้ดีกว่าตัวเอง 10 เท่าได้อย่างไร? โปรดทำตามขั้นตอนของเราไปยังบล็อกถัดไปในซีรีส์นี้

Related Articles

เจ้าของธุรกิจ: ใช้ Google Business Messages เพื่อมีส่วนร่วมในช่วงนอกเวลาทำการ!
28/3/2565

เจ้าของธุรกิจ: ใช้ Google Business Messages เพื่อมีส่วนร่วมในช่วงนอกเวลาทำการ!

ในขณะที่โปรไฟล์ธุรกิจของ Google ช่วยให้เจ้าของธุรกิจสามารถแชทกับลูกค้าได้โดยตรง แต่ Google Business Messages ช่วยให้สามารถผสานรวมกับตัวแทนเสมือนได้

เทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติ (IVR) ของคุณได้หรือไม่?
13/10/2567

เทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติ (IVR) ของคุณได้หรือไม่?

สำรวจว่าเทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติในปัจจุบันของคุณได้หรือไม่

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.