ตลอดซีรีส์บล็อกนี้ ติดตามการเดินทางของ Seasalt.ai เพื่อสร้างประสบการณ์การประชุมสมัยใหม่ที่รอบด้าน เริ่มต้นจากจุดเริ่มต้นที่เรียบง่าย ไปจนถึงการปรับปรุงบริการของเราบนฮาร์ดแวร์และโมเดลต่างๆ ไปจนถึงการผสานรวมระบบ NLP ที่ล้ำสมัย และสุดท้ายจบลงด้วยการตระหนักถึง SeaMeet โซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเราอย่างเต็มรูปแบบ
อนาคตของการประชุมสมัยใหม่
ที่ Microsoft Build 2019 Microsoft ได้ปลุกเร้าผู้ชมเมื่อพวกเขาเปิดตัวโซลูชันคลาวด์คอมพิวติ้งล่าสุดของพวกเขา: Azure Speech Services โดยเฉพาะอย่างยิ่งแอปพลิเคชันการถอดความการประชุมของพวกเขา หลังจากการเปิดตัว ตัวถอดความการสนทนานี้ก็ปรากฏบนเรดาร์ของทุกคนทันทีและได้รับการกล่าวถึงในบล็อกและวารสารเทคโนโลยีชั้นนำ การสาธิตซึ่งแสดงในวิดีโอด้านล่างในปี 2019 ได้แสดงให้เห็นถึงพลังของ Azure Speech Services อย่างมาก เราไม่รู้เลยว่ามันจะกลายเป็นบทนำของการประชุมสมัยใหม่ที่จะจัดขึ้นในสถานการณ์การระบาดใหญ่ทั่วโลกและหลังการระบาดใหญ่: จากทางกายภาพไปสู่เสมือนจริงไปสู่แบบผสมผสาน

โฆษณาว่าเป็นแพลตฟอร์มการถอดความการสนทนา การจัดแสดงของ Microsoft สำหรับบริการถอดความการประชุมของ Azure ซึ่งได้รับการแนะนำอย่างเหมาะสมว่าเป็น “อนาคตของการประชุมสมัยใหม่” ได้สร้างบริการใหม่ของพวกเขาให้เป็นแพลตฟอร์มแปลงคำพูดเป็นข้อความ (STT) ที่แข็งแกร่งและมีประสิทธิภาพ เหมาะสำหรับธุรกิจทุกประเภทที่กำลังมองหาวิธีที่รวดเร็วและเรียบร้อยในการบันทึกการประชุมที่สำคัญทั้งหมดของพวกเขา
อะไรทำให้บริการนี้เป็นสุดยอดของการถอดความการประชุม? ประการแรก ประสิทธิภาพแบบเรียลไทม์ เมื่อเทคโนโลยีเร็วขึ้นเรื่อยๆ ความอดทนก็ยิ่งน้อยลงเรื่อยๆ ซึ่งแม้แต่ความล่าช้าเพียงไม่กี่วินาทีก็เพียงพอที่จะทำให้ผู้ใช้ทั่วไปรำคาญได้ แต่ Microsoft ได้พิสูจน์แล้วว่าตัวถอดความการสนทนาของพวกเขานั้นเร็วกว่ามาก โดยให้การถอดความที่แม่นยำเร็วกว่าบริการคำบรรยายภาพบางบริการ ทำให้สามารถติดตามการสนทนาพร้อมกันด้วยข้อความเพียงอย่างเดียวได้อย่างสมบูรณ์
ต่อไป Microsoft ยังได้แสดงความสามารถในการระบุผู้พูดของพวกเขา การจบลงด้วยข้อความการสนทนาที่ไม่เป็นระเบียบนั้นน่าหงุดหงิดและไร้ประโยชน์ แต่การระบุผู้พูดจะติดป้ายกำกับแต่ละคำพูดโดยอัตโนมัติพร้อมกับผู้พูดซึ่งสร้างรูปแบบที่บริโภคง่าย
ทุกวันนี้ ฮาร์ดแวร์คอมพิวเตอร์มีประสิทธิภาพมากขึ้นทุกวัน และบริษัทต่างๆ ก็พยายามที่จะบีบทุกคอร์สุดท้ายจาก CPU และ GPU ล่าสุด บ่อยครั้งที่เทคโนโลยีเก่าล้าสมัยและลูกค้าถูกบังคับให้อัปเกรดทุกสองสามปีเพียงเพื่อที่จะยังคงมีความเกี่ยวข้องในสังคม ใน “อนาคตของการประชุมสมัยใหม่” Microsoft ได้ปรับปรุง Azure Speech Service ให้ทำงานบนฮาร์ดแวร์ระดับผู้บริโภคในขณะที่ยังคงการคำนวณที่หนักหน่วงไว้ที่ฝั่งของพวกเขา ซึ่งเป็นการขยายประชากรจำนวนมากที่สามารถได้รับประโยชน์จากบริการนี้อยู่แล้ว
บริการถอดความการประชุมของ Azure ยืนหยัดที่จะปรับปรุงวิธีการดำเนินธุรกิจของเรา ทุกองค์กรควรที่จะรวมผลิตภัณฑ์เช่นนี้เข้ากับเวิร์กโฟลว์ของตน ในวันปกติ ข้อมูลจะไหลอย่างต่อเนื่องและทุกบิตมีความสำคัญพอๆ กับบิตสุดท้าย ไม่ว่าจะเป็นการเตือนความจำ งาน หรือการอัปเดต บ่อยครั้งที่สิ่งต่างๆ หายไปในรอยแตกและนั่นหมายถึงการเสียเวลาและผลกำไรที่สูญเปล่า สิ่งที่โซลูชันของ Microsoft นำเสนอคือบันทึกที่สมบูรณ์และสร้างขึ้นโดยอัตโนมัติซึ่งแสดงให้เห็นอย่างชัดเจนว่ามีอะไรพูดและใครพูด ดังนั้นจึงหมดสมัยของการพลาดข้อมูลและการตามล่าอย่างสุ่มสี่สุ่มห้าผ่านการบันทึกเสียงที่ยาวนานสำหรับส่วนเฉพาะ ตอนนี้ ข้อมูลทั้งหมดที่คุณต้องการถูกจัดวางอย่างเรียบร้อยเพื่อให้คุณอ้างอิงได้บ่อยเท่าที่คุณต้องการ เทคโนโลยีนี้มีความสำคัญมากกว่าที่เคย หากปี 2020 สอนอะไรเรา นั่นคือความต้องการความยืดหยุ่น โดยเฉพาะอย่างยิ่งในที่ทำงาน ผู้คนป่วยและเหตุการณ์ที่ไม่คาดฝันเกิดขึ้น ดังนั้นจึงแทบจะเป็นไปไม่ได้เลยที่จะคาดหวังให้พนักงานเข้าร่วมทุกการสนทนา ด้วยการประชุมสมัยใหม่ เราเข้าใกล้ความสามารถในการรองรับการพัฒนาที่ไม่คาดคิดเหล่านี้ไปอีกขั้นโดยการให้ทุกคนสามารถอยู่ที่นั่นได้โดยไม่ต้องอยู่ที่นั่นจริงๆ
การนำการประชุมสมัยใหม่ไปใช้
ในช่วงกลางปี 2020 เราได้รับคำขอเสนอราคาจากลูกค้ารัฐบาลในสิงคโปร์ ใช่ มันยังคงเป็นการระบาดใหญ่ แต่สิงคโปร์ควบคุมได้ ดังนั้นการประชุมของรัฐบาลจึงยังคงจัดขึ้นในห้องประชุมจริง พวกเขาต้องการโซลูชันที่ทันสมัยที่สามารถถอดความคำพูดจากผู้พูดได้มากถึง 12 คน นอกจากนี้ การระบุผู้พูดจะมีบทบาทสำคัญที่นี่
เกี่ยวกับการระบุผู้พูด ความแตกต่างที่สำคัญอย่างหนึ่งระหว่างสิ่งที่ Azure นำเสนอและสิ่งที่ลูกค้าต้องการคือ “การลงทะเบียน” เสียง: Azure ต้องการเสียงที่บันทึกไว้ล่วงหน้าจากผู้พูดทุกคนเพื่อลงทะเบียนลายนิ้วมือเสียงของพวกเขาในระบบ อย่างไรก็ตาม เป็นไปไม่ได้ที่จะขอให้เจ้าหน้าที่รัฐบาลที่คาดว่ามีความสำคัญมากบางคนนั่งหน้าไมโครโฟนเพื่อบันทึกเสียง เราได้ทำการปรับเปลี่ยนกระบวนการโดยทำการจัดกลุ่มผู้พูดแบบไม่มีผู้ดูแลก่อน (เรียกอีกอย่างว่าการแยกผู้พูด) แนวคิดคือถ้าผู้พูดเคยพูดในระบบของเราแล้ว เราจะจำพวกเขาได้ในครั้งต่อไปที่พวกเขาพูด
สถาปัตยกรรมของการประชุมสมัยใหม่จาก การถอดความการสนทนาของ Azure ในการปรับปรุงของเรา เราได้ผ่อนคลายข้อกำหนดของ “การลงทะเบียนผู้ใช้” ก่อนการประชุมเป็นหลังการประชุม
จากนั้นเราก็รวบรวมคลังแสงของเราสำหรับโครงการทั้งหมดอย่างรวดเร็ว ขั้นตอนแรกคือการจัดหาอาร์เรย์ไมโครโฟนคุณภาพสูงที่จะส่งข้อมูลเสียงที่คมชัดไปยังโมเดลการจดจำของเรา เราหลงใหลใน Azure Kinect ทันที: อาร์เรย์ไมโครโฟน 7 ตัวที่ทันสมัยซึ่งบรรจุอยู่ในเคสอลูมิเนียมทั้งหมดพร้อมโบนัสเพิ่มเติมของกล้องความละเอียดสูงและเซ็นเซอร์ความลึก

Azure Kinect DK มูลค่า 400 ดอลลาร์ใช้สำหรับการประชุมสมัยใหม่
เพียงแค่ดูภายนอก นี่คืออุปกรณ์ที่ซับซ้อนอย่างแท้จริงที่จะช่วยเสริมห้องประชุมใดๆ แต่ที่สำคัญกว่านั้นคืออาร์เรย์ไมโครโฟนอันทรงพลังได้ให้คำมั่นสัญญาถึงคุณภาพที่เราต้องการ ด้วยการจัดเรียงแบบวงกลม ไมโครโฟนทั้งเจ็ดตัวได้เปิดโอกาสให้ใช้เทคนิคการประมวลผลสัญญาณที่ล้ำสมัย เช่น การหาตำแหน่งแหล่งกำเนิดและการสร้างลำแสง ไมโครโฟนนี้ยังเป็นการจับคู่ที่สมบูรณ์แบบกับแบ็กเอนด์ของเราซึ่งใช้บริการคำพูดของ Azure ซึ่งเป็นแพลตฟอร์มแปลงคำพูดเป็นข้อความที่ได้รับการยอมรับ ทำให้ผลิตภัณฑ์ของเรามีพลังที่จำเป็นในการเป็นตัวถอดความการประชุมชั้นนำ

Azure Kinect DK มาพร้อมกับอาร์เรย์ไมโครโฟน 7 ตัวเพื่อรับเสียง
แม้ว่า Azure จะไม่ได้เป็นส่วนสุดท้ายของ SeaMeet แต่ก็ได้ให้จุดเริ่มต้นที่เราต้องการเพื่อให้สามารถบรรลุวิสัยทัศน์ของเราได้ ในที่สุดเราก็ได้ผูกทั้งหมดนี้เข้ากับส่วนต่อประสานผู้ใช้ ในการทำซ้ำครั้งแรกของเรา เราใช้การออกแบบที่ใช้ Java ทั่วไป ซึ่งแม้จะเรียบง่าย แต่ก็ใช้งานได้อย่างสมบูรณ์แบบ เนื่องจากอุปกรณ์ Kinect ไม่สามารถรันโค้ดภายนอกได้ ทั้งหมดนี้จึงต้องทำงานบนแล็ปท็อป Windows เครื่องเดียวเพิ่มเติม แม้ว่าในตอนแรกมันจะดูหยาบไปหน่อย แต่เราก็ภูมิใจที่จะบอกว่าเรามีผลิตภัณฑ์ถอดความการประชุมที่ทำงานได้อย่างสมบูรณ์

การนำการประชุมสมัยใหม่ไปใช้กับ Azure Kinect และคอมพิวเตอร์ Windows ซึ่งรัน UI ที่ใช้ Java แบบง่ายๆ เพื่อแสดงการถอดความการประชุมแบบเรียลไทม์และการระบุผู้พูด
การปรับใช้การประชุมสมัยใหม่
ในเดือนพฤษภาคม 2021 วิศวกรของเราเดินทางมาถึงสิงคโปร์เพื่อปรับใช้โซลูชันธุรกิจสมัยใหม่ของเราเพื่อเป็นข้อพิสูจน์แนวคิด เราต้องแข่งขันกับบริษัทคู่แข่งอีกสองแห่ง โดยแต่ละแห่งได้รับมอบหมายให้สาธิตวิสัยทัศน์ของเราเกี่ยวกับอนาคตของการประชุม
แม้ว่าความจริงที่ว่าไร้สายได้กลายเป็นบรรทัดฐานในช่วงทศวรรษที่ผ่านมา แต่เราพบว่าคู่แข่งของเรายังคงเลือกใช้โซลูชันแบบมีสาย ดังที่คุณเห็นจากภาพ ผู้พูดทั้ง 12 คนแต่ละคนถูกยึดไว้กับไมโครโฟนแต่ละตัว ผู้พูดต้องพูดโดยตรงกับไมโครโฟนในระยะใกล้เพื่อให้ระบบรับเสียงของพวกเขาได้ ไม่เพียงแต่จะขัดขวางความยืดหยุ่นอย่างรุนแรงเท่านั้น แต่การตั้งค่าดังกล่าวยังเพิ่มความซับซ้อนด้วยอุปกรณ์ AV ที่ซับซ้อนอีกด้วย ในทางกลับกัน โซลูชันของเราขับเคลื่อนโดยความสามารถระยะไกลอย่างเต็มที่ ต้องขอบคุณอาร์เรย์ไมโครโฟน 7 ตัวและอัลกอริธึมการประมวลผลสัญญาณ
ในระดับหนึ่ง โซลูชันของเราคล้ายกับ “Alexa สำหรับธุรกิจ” มาก: อุปกรณ์เครื่องเดียวครอบคลุมทั้งห้อง โดยต้องใช้สายไฟเพียงเส้นเดียว เมื่อเปรียบเทียบกับโซลูชันของคู่แข่งของเรา โซลูชันของเราล้ำหน้าไปหลายรุ่นในแง่ที่ว่าเราเข้าใจความต้องการของธุรกิจสมัยใหม่อย่างแท้จริง ในขณะที่พวกเขายังคงผูกติดอยู่กับรุ่นมีสายที่ล้าสมัยอย่างเต็มที่

การตั้งค่าห้องประชุม PoC มีผู้พูด 12 คนจำลองการประชุมรัฐบาล 2 ชั่วโมง

ภาพระยะใกล้ของอุปกรณ์ทั้งหมดในสถานที่
ทีมงานรู้สึกตื่นเต้นที่ได้เห็นความแตกต่างอย่างมาก ด้วยการปรับแต่งเพียงไม่กี่ชั่วโมง PoC สุดท้ายก็ดำเนินไปอย่างราบรื่นมาก ทีมงานยังได้เพลิดเพลินกับการทัวร์ในสิงคโปร์หลัง PoC ในประเทศที่ Covid-19 ถูกควบคุมอย่างเข้มงวดเพื่อให้ชีวิตและธุรกิจดำเนินไปตามปกติ
นอกเหนือจากการประชุมสมัยใหม่
ในช่วงเวลาที่เราอยู่ในสิงคโปร์ ความคิดของเราไปไกลกว่า PoC ที่ประสบความสำเร็จ: เมื่อเทียบกับโซลูชันคู่แข่งอื่นๆ โซลูชันของเราดีกว่า 10 เท่า แต่เราจะทำได้ดีกว่าตัวเอง 10 เท่าได้อย่างไร? โปรดทำตามขั้นตอนของเราไปยังบล็อกถัดไปในซีรีส์นี้