ตลอดทั้งชุดบล็อกนี้ ติดตามการเดินทางของ Seasalt.ai ในการสร้างประสบการณ์การประชุมสมัยใหม่ที่รอบด้าน ตั้งแต่จุดเริ่มต้นที่เรียบง่าย ไปจนถึงการเพิ่มประสิทธิภาพบริการของเราบนฮาร์ดแวร์และโมเดลต่างๆ ไปจนถึงการผสานรวมระบบ NLP ที่ล้ำสมัย และสิ้นสุดที่การตระหนักรู้อย่างเต็มรูปแบบของ SeaMeet โซลูชันการประชุมสมัยใหม่ที่ทำงานร่วมกันของเรา
เหนือกว่าการประชุมสมัยใหม่
ที่ Seasalt.ai เราชื่นชมความสามารถปัจจุบันที่แสดงให้เห็นจากเดโม Build 2019 ของผลิตภัณฑ์นี้ แต่เราสนใจที่จะเห็นว่าผลิตภัณฑ์นี้จะกลายเป็นอะไรได้บ้าง วิธีการนำการถอดความบทสนทนาไปไกลกว่าการเลียนแบบ แต่ก่อนที่คุณจะเอาชนะคู่แข่งได้ คุณต้องเข้าใจเกมที่คุณกำลังเล่นอย่างถ่องแท้เสียก่อน และนั่นคือจุดกำเนิดของ SeaMeet ในช่วงเริ่มต้น เรามอง Azure เป็นแบบอย่างเพื่อทำความเข้าใจพื้นฐานของสิ่งที่ทำให้บริการถอดความแข็งแกร่ง และใช้บริการเสียงพูดของ Azure เป็นแบ็กเอนด์ของเราเพื่อใช้ประโยชน์จากเทคโนโลยีที่ได้รับการยอมรับนี้
เช่นเดียวกับผลิตภัณฑ์ใหม่ๆ ความท้าทายก็เกิดขึ้นทันที ด้วยความกระตือรือร้นที่จะเปิดตัวผลิตภัณฑ์ของเรา เราจึงเลือกใช้ชุดไมโครโฟน Microsoft Kinect DK ซึ่งได้รับการโปรโมตว่าเป็นฮาร์ดแวร์คู่หูของบริการเสียงพูด และคาดว่าจะได้รับการปรับแต่งเพื่อให้ได้ประสิทธิภาพสูงสุดจากโมเดลการรู้จำเสียงพูดอัตโนมัติของ Azure แม้ว่าจะเป็นอุปกรณ์ที่สร้างขึ้นอย่างดีและออกแบบมาอย่างดีเยี่ยม แต่ก็มาพร้อมกับตัวเรือนอะลูมิเนียมเต็มรูปแบบ เลนส์มุมกว้าง กล้องวัดความลึก และชุดไมโครโฟน 7 ตัว นอกจากนี้ยังมีราคาที่สูงถึงเกือบ 400 ดอลลาร์ ตั้งแต่เดือนเมษายน 2021 Kinect DK มีปัญหาการขาดแคลนสต็อกอย่างรุนแรง และยังคงไม่มีสต็อก ณ วันที่เขียนบทความนี้ในเดือนกันยายน 2021 สิ่งนี้ยิ่งตอกย้ำว่า Kinect ไม่ใช่อุปกรณ์ที่เหมาะกับเรา

Azure Kinect DK ไม่มีสต็อกตั้งแต่ 2021/4 เมื่อบทความนี้เผยแพร่ (2021/9)
ชุดไมโครโฟนเป็นองค์ประกอบแรกในไปป์ไลน์การถอดความบทสนทนา ในฐานะผู้ให้บริการถอดความ เราจำเป็นต้องสามารถจัดหาฮาร์ดแวร์ของเราได้อย่างยั่งยืนและเชื่อถือได้
การเดินทางของเราเพื่อค้นหาชุดไมโครโฟนที่สมบูรณ์แบบนำเราไปสู่สองทางเลือก: Respeaker Array v2.0 และ Respeaker Core v2.0 อุปกรณ์ทั้งสองนี้เป็นชุดไมโครโฟนแบบวงกลม โดยมีไมโครโฟนสี่และหกตัวตามลำดับ ซึ่งเป็นคุณสมบัติที่สำคัญเพื่อให้สามารถระบุตำแหน่งแหล่งกำเนิดเสียงได้ 360 องศา และช่วยให้เราสามารถรวมอุปกรณ์ใหม่เหล่านี้เข้ากับระบบที่มีอยู่ของเราได้อย่างง่ายดาย ความสวยงามที่แท้จริงของอุปกรณ์เหล่านี้คือมาพร้อมกับอัลกอริทึมการประมวลผลสัญญาณในตัว รวมถึงการลดเสียงรบกวน การยกเลิกเสียงสะท้อน และการสร้างลำแสงที่ปรับแต่งมาอย่างสมบูรณ์แบบตามขนาดของไมโครโฟน

Respeaker Array v2.0 แสดง VAD และการระบุตำแหน่งแหล่งกำเนิดเสียง

การสาธิตการประชุมสดด้วย Respeaker Array v2.0
สำหรับชุดไมโครโฟนสี่ตัว Array v2.0 ซึ่งใช้พลังงานจากพอร์ต USB ทั้งหมด หมายความว่าคอมพิวเตอร์ของผู้ใช้จะต้องมุ่งเน้นไปที่การสตรีมเสียงไปยังเซิร์ฟเวอร์เท่านั้น ซึ่งจะถ่ายโอนการประมวลผลสัญญาณไปยังชุดไมโครโฟน

Respeaker Core v2.0 แสดงพร้อมการสาธิต
ที่น่าสนใจยิ่งกว่าคือ Core v2.0 ที่มาพร้อมกับโปรเซสเซอร์ ARM และ RAM 1GB สามารถรัน Linux distribution ได้เต็มรูปแบบ และมีพลังประมวลผลเพียงพอที่จะรันสคริปต์ไคลเอ็นต์ของเรา ไม่เพียงแต่เราได้ถ่ายโอนการประมวลผลจากคอมพิวเตอร์ของผู้ใช้ด้วยอุปกรณ์นี้เท่านั้น แต่เรายังได้กำจัดความจำเป็นในการเชื่อมต่อคอมพิวเตอร์เข้ากับไมโครโฟนโดยสิ้นเชิง เนื่องจากชุดไมโครโฟนกำลังทำการประมวลผลที่หนักหน่วง เราจึงลดข้อกำหนดด้านฮาร์ดแวร์ที่จำเป็นในการรันผลิตภัณฑ์ของเรา และด้วยเหตุนี้จึงเพิ่มจำนวนผู้ชมที่สามารถได้รับประโยชน์จาก SeaMeet ได้อย่างมีประสิทธิภาพ

ตัวอย่าง Core v2.0 ของการจัดวางไมโครโฟนแบบสแตนด์อโลน
คุณสมบัติพิเศษอีกอย่างของชุดไมโครโฟนเหล่านี้คือไม่มีตัวเรือน ทั้งสองถูกจัดส่งเป็นแผงวงจรเปล่าที่มีไมโครโฟน ชิป และพอร์ตทั้งหมดเปิดเผย แม้ว่าหลายคนจะมองว่าเป็นความไม่สะดวก แต่เรามองเห็นโอกาสในการสร้างอุปกรณ์ที่ไม่เหมือนใครอย่างแท้จริงซึ่งเป็นของ Seasalt อย่างชัดเจน
ด้วยอุปกรณ์เหล่านี้ เราได้สรุปต้นแบบของ SeaMeet ซึ่งเป็นบริการถอดความการประชุมที่ทันสมัยและล้ำสมัยของเรา และด้วยเหตุนี้ เราจึงสรุปชุดบทความห้าส่วนของเรา โดยเริ่มต้นเมื่อ SeaMeet เป็นเพียงเมล็ดพันธุ์ที่ได้รับแรงบันดาลใจจากการสาธิตของ Microsoft และสิ้นสุดด้วยผลิตภัณฑ์ที่เป็นอิสระอย่างสมบูรณ์ แม้จะยังอยู่ในช่วงเริ่มต้น แต่ SeaMeet ก็มีการเดินทางที่น่าตื่นเต้นรออยู่ข้างหน้า ในขณะที่เรายังคงปรับปรุงระบบการแยกเสียงพูด ความเข้าใจในการประชุม และโมเดลภาษาของเรา ทีมงานของ Seasalt.ai กระตือรือร้นที่จะปฏิวัติวิธีการดำเนินธุรกิจของโลกต่อไป