ตลอดบล็อกซีรีส์นี้ ติดตามการเดินทางของ Seasalt.ai ในการสร้างประสบการณ์การประชุมสมัยใหม่ที่สมบูรณ์แบบ เริ่มต้นจากจุดเริ่มต้นเล็กๆ ไปจนถึงการเพิ่มประสิทธิภาพบริการของเราบนฮาร์ดแวร์และโมเดลต่างๆ ไปจนถึงการรวมระบบ NLP ที่ล้ำสมัย และสุดท้ายก็จบลงด้วยการตระหนักถึง SeaMeet อย่างเต็มรูปแบบ ซึ่งเป็นโซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเรา

ข้อผิดพลาดของการประชุมสมัยใหม่

ตลอดการพัฒนาของเรา เราพบกับอุปสรรคที่ไม่สามารถคาดเดาได้มากมายโดยไม่มีสาเหตุหรือวิธีแก้ไขที่ชัดเจน

การเริ่มต้นอย่างรวดเร็ว

อุปสรรคแรกคือการทำให้เครื่องมือของเราทำงานได้ Azure มีตัวอย่าง Modern Meetings ซึ่งเรายินดีที่เข้ากันได้กับ Linux แต่เราพบว่าการใช้ SDK บน Windows เพื่อเรียกใช้การสาธิตนั้นง่ายกว่ามาก — ก็เป็นผลิตภัณฑ์ของ Microsoft หลังจากทั้งหมด หลังจากความพยายามหลายครั้งที่ไม่สำเร็จในการเรียกใช้ตัวอย่างที่ให้มาบน Linux ในที่สุดเราก็ต้องละทิ้งเส้นทางนั้นและหันไปใช้ Windows ในที่สุดเราก็มีเครื่องถอดเสียงพูดที่ใช้งานได้ ซึ่งเป็นการเริ่มต้นที่ยอดเยี่ยม

ความหน่วง

ปัญหาหนึ่งที่เราประสบคือความล่าช้าประมาณห้าวินาทีในการรับผลการรู้จำของเราบน UI ส่วนหน้า แม้ว่า 5 วินาทีอาจดูค่อนข้างเร็ว แต่ความล่าช้านี้ก็ช้าเกินไปสองสามวินาทีอย่างเห็นได้ชัดจากการเป็นโซลูชันที่สะดวกและใช้งานได้จริง โดยเฉพาะอย่างยิ่งสำหรับการสื่อสารแบบเรียลไทม์

UI เริ่มต้นสำหรับการถอดเสียงพูดโดย Azure Speech SDK

UI เริ่มต้นสำหรับการถอดเสียงพูดที่จัดทำโดย Azure Speech SDK

ความหน่วงก็เป็นปัญหาสำคัญในส่วนหลังบ้านเช่นกัน ในตอนเริ่มต้นของการประชุมแต่ละครั้ง ผลลัพธ์จะมาแบบเรียลไทม์ (ตามที่โฆษณาไว้!) แต่เมื่อการประชุมดำเนินไป ความหน่วงจะพุ่งสูงขึ้นเป็นระยะๆ ถึงสามสิบวินาทีก่อนที่ข้อความจะปรากฏบนจอภาพ ถึงตอนนั้น สิ่งที่พูดไปก็ไม่เกี่ยวข้องกับการสนทนาอีกต่อไปแล้ว หลังจากการทดสอบนับครั้งไม่ถ้วน เราเริ่มสังเกตเห็นว่าความหน่วงเปลี่ยนแปลงไปตลอดทั้งวัน ซึ่งเราสันนิษฐานว่าเป็นผลมาจากภาระงานของเซิร์ฟเวอร์ Azure ในขณะนั้น เราอยู่ในธุรกิจการสร้างผลิตภัณฑ์ที่สอดคล้องและเชื่อถือได้ ดังนั้นความล่าช้าที่ผันผวนและคาดเดาไม่ได้เหล่านี้จึงเป็นสิ่งที่ยอมรับไม่ได้ ยิ่งเป็นเหตุผลให้เราต้องพึ่งพาโมเดลและเซิร์ฟเวอร์ของเราเอง

สำเนียง

เหตุผลหนึ่งที่เราใช้ Azure Speech Service ตั้งแต่แรกคือการสนับสนุนภาษาและสำเนียงที่หลากหลาย เราตื่นเต้นเป็นพิเศษที่จะใช้โมเดลภาษาอังกฤษสิงคโปร์ของ Azure Speech Service แต่ลองจินตนาการถึงความประหลาดใจของเราเมื่อพบว่า สำหรับสำเนียงสิงคโปร์ โมเดลภาษาอังกฤษสหรัฐฯ มีประสิทธิภาพเหนือกว่าโมเดลภาษาอังกฤษสิงคโปร์อย่างสม่ำเสมอ ยิ่งไปกว่านั้น แม้แต่โมเดลที่ดีที่สุดก็ยังไม่สามารถรับมือกับความท้าทายในโลกแห่งความเป็นจริงได้

การถอดเสียงที่ได้จาก “ขอแสดงความยินดี! เด็กผู้ชายหรือเด็กผู้หญิง?”

เราเห็นผลลัพธ์เช่น “ola regulations may be boiled baby cool” ในขณะที่คำพูดจริงๆ คือ “ขอแสดงความยินดี! เด็กผู้ชายหรือเด็กผู้หญิง?” โมเดลภาษาที่ได้รับการฝึกฝนมาอย่างดีควรจะกำจัดการถอดเสียงดังกล่าวได้ แม้ว่านี่จะเป็นตัวอย่างที่รุนแรง แต่บ่อยครั้งกว่านั้น จะมีข้อผิดพลาดในการถอดเสียงแต่ละครั้ง ไม่ว่าข้อผิดพลาดจะเล็กน้อยเพียงใด เช่น บทความที่หายไปหรือคำที่เข้าใจผิด ข้อผิดพลาดใดๆ ก็ตามจะทำให้เสียสมาธิและสามารถทำลายชื่อเสียงของบริการถอดเสียงได้อย่างง่ายดาย

การอัปเดต Windows

ไม่กี่สัปดาห์ต่อมา ทีมงานใช้เวลาทำงานดึกดื่นหลายคืนเพื่อให้แน่ใจว่าผลิตภัณฑ์ของเราพร้อมสำหรับการสาธิตของลูกค้าในอีกไม่กี่วันข้างหน้า เครื่องถอดเสียงการประชุมของเราทำงานได้อย่างราบรื่นบนแล็ปท็อป Windows สามเครื่องที่แยกจากกัน แล้ววันหนึ่งก็เกิดเรื่องไม่คาดฝันขึ้น เราเหลือคอมพิวเตอร์ที่ใช้งานได้เพียงเครื่องเดียว ทั้งๆ ที่ไม่มีใครแตะต้องโค้ดเลย เราทดสอบเครือข่าย ตรวจสอบไฟร์วอลล์ ทุกอย่างที่เรานึกออกที่อาจทำให้ผลิตภัณฑ์ของเราล้มเหลวอย่างกะทันหัน การคาดเดาสุดท้ายของเราคือการอัปเดต Windows ที่ไม่คาดคิดทำให้ Azure Speech SDK ไม่สามารถใช้งานร่วมกับคอมพิวเตอร์สองเครื่องของเราได้อย่างไม่สามารถอธิบายได้ เมื่อเราเปรียบเทียบระบบทั้งสามแบบบิตต่อบิต เมื่อการแสดงของเราใกล้เข้ามาอย่างรวดเร็ว ความเครียดและความตึงเครียดก็ถึงจุดแตกหัก เมื่อเหลือเพียงระบบเดียว ทีมงานก็ทำข้อตกลง: ห้ามเปลี่ยนแปลงโค้ดและห้ามอัปเดตโดยเด็ดขาด หลังจากความยากลำบากนี้ เราก็พอแล้ว

นอกเหนือจากการประชุมสมัยใหม่

เพื่อหลีกเลี่ยงอุปสรรคเหล่านี้ ทีมงานของ Seasalt.ai ได้เริ่มฝึกอบรมโมเดลเสียงและภาษาของตนเองเพื่อแข่งขันกับความสามารถของเครื่องถอดเสียงการสนทนาของ Azure ตลอดกระบวนการทั้งหมด เรายังคงถามคำถามว่า เราจะไปที่ไหนจากนี้? เราจะขยายผลิตภัณฑ์ที่มีประโยชน์อยู่แล้วนี้ได้อย่างไร?

การประชุมสมัยใหม่แสดงให้เห็นถึงศักยภาพในการแปลงเสียงเป็นข้อความที่แข็งแกร่ง แต่ก็หยุดอยู่แค่นั้น มันสามารถฟังเราได้ แต่ถ้าเราสามารถทำให้มันคิดแทนเราได้ล่ะ? ด้วยการถอดเสียงเพียงอย่างเดียว แม้ว่าผลิตภัณฑ์จะน่าประทับใจ แต่แอปพลิเคชันก็ค่อนข้างจำกัด การเปลี่ยนจากการถอดเสียงพูดไปสู่ความฉลาดทางเสียงจะเปิดประตูสู่สิ่งที่เราสามารถสร้างสรรค์ได้อย่างกว้างขวาง ตัวอย่างของความฉลาด ได้แก่ สรุปการประชุม การสรุปหัวข้อ และการดึงข้อมูลการดำเนินการ สุดท้าย การออกแบบอินเทอร์เฟซที่สวยงามเพื่อเชื่อมโยงทุกสิ่งเข้าด้วยกันในแพ็คเกจที่น่าทึ่ง

และนี่คือเรื่องราวที่ผ่านมา จุดเริ่มต้นของการเดินทางของ Seasalt.ai ในการนำเสนอโซลูชันทางธุรกิจที่ดีที่สุดสู่ตลาดที่พัฒนาอย่างรวดเร็วและส่งมอบสู่โลก หากคุณต้องการทราบรายละเอียดเพิ่มเติม โปรดอ่านบล็อกซีรีส์ที่เหลือ