Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
จาก Demo สู่ความสำเร็จ: ข้อผิดพลาดของการประชุมสมัยใหม่ (2/5)

จาก Demo สู่ความสำเร็จ: ข้อผิดพลาดของการประชุมสมัยใหม่ (2/5)

ในส่วนที่สองของบล็อกซีรีส์นี้ ติดตามการเดินทางของ Seasalt.ai ในการสร้าง SeaMeet ซึ่งเป็นโซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเรา

SeaMeet

ตลอดบล็อกซีรีส์นี้ ติดตามการเดินทางของ Seasalt.ai ในการสร้างประสบการณ์การประชุมสมัยใหม่ที่สมบูรณ์แบบ เริ่มต้นจากจุดเริ่มต้นเล็กๆ ไปจนถึงการเพิ่มประสิทธิภาพบริการของเราบนฮาร์ดแวร์และโมเดลต่างๆ ไปจนถึงการรวมระบบ NLP ที่ล้ำสมัย และสุดท้ายก็จบลงด้วยการตระหนักถึง SeaMeet อย่างเต็มรูปแบบ ซึ่งเป็นโซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเรา

ข้อผิดพลาดของการประชุมสมัยใหม่

ตลอดการพัฒนาของเรา เราพบกับอุปสรรคที่ไม่สามารถคาดเดาได้มากมายโดยไม่มีสาเหตุหรือวิธีแก้ไขที่ชัดเจน

การเริ่มต้นอย่างรวดเร็ว

อุปสรรคแรกคือการทำให้เครื่องมือของเราทำงานได้ Azure มีตัวอย่าง Modern Meetings ซึ่งเรายินดีที่เข้ากันได้กับ Linux แต่เราพบว่าการใช้ SDK บน Windows เพื่อเรียกใช้การสาธิตนั้นง่ายกว่ามาก — ก็เป็นผลิตภัณฑ์ของ Microsoft หลังจากทั้งหมด หลังจากความพยายามหลายครั้งที่ไม่สำเร็จในการเรียกใช้ตัวอย่างที่ให้มาบน Linux ในที่สุดเราก็ต้องละทิ้งเส้นทางนั้นและหันไปใช้ Windows ในที่สุดเราก็มีเครื่องถอดเสียงพูดที่ใช้งานได้ ซึ่งเป็นการเริ่มต้นที่ยอดเยี่ยม

ความหน่วง

ปัญหาหนึ่งที่เราประสบคือความล่าช้าประมาณห้าวินาทีในการรับผลการรู้จำของเราบน UI ส่วนหน้า แม้ว่า 5 วินาทีอาจดูค่อนข้างเร็ว แต่ความล่าช้านี้ก็ช้าเกินไปสองสามวินาทีอย่างเห็นได้ชัดจากการเป็นโซลูชันที่สะดวกและใช้งานได้จริง โดยเฉพาะอย่างยิ่งสำหรับการสื่อสารแบบเรียลไทม์

UI เริ่มต้นสำหรับการถอดเสียงพูดโดย Azure Speech SDK

UI เริ่มต้นสำหรับการถอดเสียงพูดที่จัดทำโดย Azure Speech SDK

ความหน่วงก็เป็นปัญหาสำคัญในส่วนหลังบ้านเช่นกัน ในตอนเริ่มต้นของการประชุมแต่ละครั้ง ผลลัพธ์จะมาแบบเรียลไทม์ (ตามที่โฆษณาไว้!) แต่เมื่อการประชุมดำเนินไป ความหน่วงจะพุ่งสูงขึ้นเป็นระยะๆ ถึงสามสิบวินาทีก่อนที่ข้อความจะปรากฏบนจอภาพ ถึงตอนนั้น สิ่งที่พูดไปก็ไม่เกี่ยวข้องกับการสนทนาอีกต่อไปแล้ว หลังจากการทดสอบนับครั้งไม่ถ้วน เราเริ่มสังเกตเห็นว่าความหน่วงเปลี่ยนแปลงไปตลอดทั้งวัน ซึ่งเราสันนิษฐานว่าเป็นผลมาจากภาระงานของเซิร์ฟเวอร์ Azure ในขณะนั้น เราอยู่ในธุรกิจการสร้างผลิตภัณฑ์ที่สอดคล้องและเชื่อถือได้ ดังนั้นความล่าช้าที่ผันผวนและคาดเดาไม่ได้เหล่านี้จึงเป็นสิ่งที่ยอมรับไม่ได้ ยิ่งเป็นเหตุผลให้เราต้องพึ่งพาโมเดลและเซิร์ฟเวอร์ของเราเอง

สำเนียง

เหตุผลหนึ่งที่เราใช้ Azure Speech Service ตั้งแต่แรกคือการสนับสนุนภาษาและสำเนียงที่หลากหลาย เราตื่นเต้นเป็นพิเศษที่จะใช้โมเดลภาษาอังกฤษสิงคโปร์ของ Azure Speech Service แต่ลองจินตนาการถึงความประหลาดใจของเราเมื่อพบว่า สำหรับสำเนียงสิงคโปร์ โมเดลภาษาอังกฤษสหรัฐฯ มีประสิทธิภาพเหนือกว่าโมเดลภาษาอังกฤษสิงคโปร์อย่างสม่ำเสมอ ยิ่งไปกว่านั้น แม้แต่โมเดลที่ดีที่สุดก็ยังไม่สามารถรับมือกับความท้าทายในโลกแห่งความเป็นจริงได้

การถอดเสียงที่ได้จาก “ขอแสดงความยินดี! เด็กผู้ชายหรือเด็กผู้หญิง?”

เราเห็นผลลัพธ์เช่น “ola regulations may be boiled baby cool” ในขณะที่คำพูดจริงๆ คือ “ขอแสดงความยินดี! เด็กผู้ชายหรือเด็กผู้หญิง?” โมเดลภาษาที่ได้รับการฝึกฝนมาอย่างดีควรจะกำจัดการถอดเสียงดังกล่าวได้ แม้ว่านี่จะเป็นตัวอย่างที่รุนแรง แต่บ่อยครั้งกว่านั้น จะมีข้อผิดพลาดในการถอดเสียงแต่ละครั้ง ไม่ว่าข้อผิดพลาดจะเล็กน้อยเพียงใด เช่น บทความที่หายไปหรือคำที่เข้าใจผิด ข้อผิดพลาดใดๆ ก็ตามจะทำให้เสียสมาธิและสามารถทำลายชื่อเสียงของบริการถอดเสียงได้อย่างง่ายดาย

การอัปเดต Windows

ไม่กี่สัปดาห์ต่อมา ทีมงานใช้เวลาทำงานดึกดื่นหลายคืนเพื่อให้แน่ใจว่าผลิตภัณฑ์ของเราพร้อมสำหรับการสาธิตของลูกค้าในอีกไม่กี่วันข้างหน้า เครื่องถอดเสียงการประชุมของเราทำงานได้อย่างราบรื่นบนแล็ปท็อป Windows สามเครื่องที่แยกจากกัน แล้ววันหนึ่งก็เกิดเรื่องไม่คาดฝันขึ้น เราเหลือคอมพิวเตอร์ที่ใช้งานได้เพียงเครื่องเดียว ทั้งๆ ที่ไม่มีใครแตะต้องโค้ดเลย เราทดสอบเครือข่าย ตรวจสอบไฟร์วอลล์ ทุกอย่างที่เรานึกออกที่อาจทำให้ผลิตภัณฑ์ของเราล้มเหลวอย่างกะทันหัน การคาดเดาสุดท้ายของเราคือการอัปเดต Windows ที่ไม่คาดคิดทำให้ Azure Speech SDK ไม่สามารถใช้งานร่วมกับคอมพิวเตอร์สองเครื่องของเราได้อย่างไม่สามารถอธิบายได้ เมื่อเราเปรียบเทียบระบบทั้งสามแบบบิตต่อบิต เมื่อการแสดงของเราใกล้เข้ามาอย่างรวดเร็ว ความเครียดและความตึงเครียดก็ถึงจุดแตกหัก เมื่อเหลือเพียงระบบเดียว ทีมงานก็ทำข้อตกลง: ห้ามเปลี่ยนแปลงโค้ดและห้ามอัปเดตโดยเด็ดขาด หลังจากความยากลำบากนี้ เราก็พอแล้ว

นอกเหนือจากการประชุมสมัยใหม่

เพื่อหลีกเลี่ยงอุปสรรคเหล่านี้ ทีมงานของ Seasalt.ai ได้เริ่มฝึกอบรมโมเดลเสียงและภาษาของตนเองเพื่อแข่งขันกับความสามารถของเครื่องถอดเสียงการสนทนาของ Azure ตลอดกระบวนการทั้งหมด เรายังคงถามคำถามว่า เราจะไปที่ไหนจากนี้? เราจะขยายผลิตภัณฑ์ที่มีประโยชน์อยู่แล้วนี้ได้อย่างไร?

การประชุมสมัยใหม่แสดงให้เห็นถึงศักยภาพในการแปลงเสียงเป็นข้อความที่แข็งแกร่ง แต่ก็หยุดอยู่แค่นั้น มันสามารถฟังเราได้ แต่ถ้าเราสามารถทำให้มันคิดแทนเราได้ล่ะ? ด้วยการถอดเสียงเพียงอย่างเดียว แม้ว่าผลิตภัณฑ์จะน่าประทับใจ แต่แอปพลิเคชันก็ค่อนข้างจำกัด การเปลี่ยนจากการถอดเสียงพูดไปสู่ความฉลาดทางเสียงจะเปิดประตูสู่สิ่งที่เราสามารถสร้างสรรค์ได้อย่างกว้างขวาง ตัวอย่างของความฉลาด ได้แก่ สรุปการประชุม การสรุปหัวข้อ และการดึงข้อมูลการดำเนินการ สุดท้าย การออกแบบอินเทอร์เฟซที่สวยงามเพื่อเชื่อมโยงทุกสิ่งเข้าด้วยกันในแพ็คเกจที่น่าทึ่ง

และนี่คือเรื่องราวที่ผ่านมา จุดเริ่มต้นของการเดินทางของ Seasalt.ai ในการนำเสนอโซลูชันทางธุรกิจที่ดีที่สุดสู่ตลาดที่พัฒนาอย่างรวดเร็วและส่งมอบสู่โลก หากคุณต้องการทราบรายละเอียดเพิ่มเติม โปรดอ่านบล็อกซีรีส์ที่เหลือ

Related Articles

เจ้าของธุรกิจ: ใช้ Google Business Messages เพื่อมีส่วนร่วมในช่วงนอกเวลาทำการ!
28/3/2565

เจ้าของธุรกิจ: ใช้ Google Business Messages เพื่อมีส่วนร่วมในช่วงนอกเวลาทำการ!

ในขณะที่โปรไฟล์ธุรกิจของ Google ช่วยให้เจ้าของธุรกิจสามารถแชทกับลูกค้าได้โดยตรง แต่ Google Business Messages ช่วยให้สามารถผสานรวมกับตัวแทนเสมือนได้

เทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติ (IVR) ของคุณได้หรือไม่?
13/10/2567

เทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติ (IVR) ของคุณได้หรือไม่?

สำรวจว่าเทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติในปัจจุบันของคุณได้หรือไม่

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.