หลังจากเปิดตัว SeaVoice ซึ่งเป็นหนึ่งในบอท text-to-speech และ speech-to-text ที่เร็วและแม่นยำที่สุดบน Discord เราต้องการทำความเข้าใจว่าผู้ใช้โต้ตอบกับบริการอย่างไร ในบล็อกนี้ เราจะมาพูดถึงสิ่งที่เราค้นพบหลังจากตรวจสอบข้อมูลผู้ใช้ text-to-speech จริงเป็นเวลาหลายเดือน
SeaVoice: บอท Discord Text-to-Speech & Speech-to-Text
Discord ซึ่งเป็นแพลตฟอร์มที่ใช้เป็นหลักสำหรับการรวมการแชทด้วยเสียงและข้อความ เป็นสนามทดสอบที่ยอดเยี่ยมสำหรับบริการปัญญาเสียงและการประมวลผลภาษาธรรมชาติ เราได้ปรับใช้ SeaVoice Bot ซึ่งมีคำสั่ง text-to-speech และ speech-to-text ไปยัง Discord ในเดือนสิงหาคม 2022 หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการทำงานของบอท หรือดูวิดีโอสาธิตสั้นๆ คุณสามารถเยี่ยมชม SeaVoice Discord Bot Wiki ได้ ในเดือนพฤศจิกายนของปีเดียวกัน เราได้เปิดตัวเวอร์ชันใหม่พร้อมการปรับปรุงแบ็กเอนด์ที่สำคัญ (ตามที่อธิบายไว้ในบล็อกโพสต์ก่อนหน้าของเรา: SeaVoice Discord Bot: การปรับปรุงแบ็กเอนด์และความเสถียร) ที่ช่วยให้เราสามารถบันทึกข้อมูลที่ไม่ระบุชื่อเกี่ยวกับวิธีที่ผู้ใช้โต้ตอบกับบอท SeaVoice ได้ ในบล็อกนี้ เราจะมาดูข้อมูลผู้ใช้ 1 เดือนจากคำสั่ง text-to-speech
การใช้งาน SeaVoice TTS

การใช้งาน text-to-speech รายวันของ SeaVoice Discord Bot ตลอด 7 สัปดาห์
ในขณะที่เขียน SeaVoice Bot ได้ถูกเพิ่มไปยังเซิร์ฟเวอร์เกือบ 800 แห่งแล้ว! ตั้งแต่เราเริ่มบันทึกข้อมูลการใช้งานในเดือนพฤศจิกายน เราพบว่าจำนวนคำขอทั้งหมดต่อวันสามารถผันผวนได้ตั้งแต่ 150 ถึงมากกว่า 1,300 (โดยเฉลี่ยประมาณ 560) ผู้ใช้ประมาณ 650 คนได้ลองใช้คำสั่ง TTS อย่างน้อยหนึ่งครั้ง อย่างไรก็ตาม ผู้ใช้ส่วนใหญ่ไม่ได้ใช้มันอย่างสม่ำเสมอหลังจากลองใช้แล้ว จากผู้ใช้ 650 คนที่ลองใช้คำสั่ง TTS ประมาณ 200 คนใช้มัน 20 ครั้งขึ้นไป และมีเพียง 100 คนเท่านั้นที่ใช้มัน 50 ครั้งขึ้นไป กล่าวได้ว่า ผู้ที่ชื่นชอบและพึ่งพาคำสั่ง TTS ใช้มันอย่างกว้างขวาง! ผู้ใช้ 5 อันดับแรกของเราส่งคำขอมากกว่า 1,000 ครั้งในสองเดือนที่ผ่านมา และผู้ใช้สูงสุดส่งคำขอเกือบ 2,500 ครั้งเพียงคนเดียว!
ข้อสังเกต
ทำไมผู้คนถึงใช้ Text-to-Speech

เหตุผลที่ผู้ใช้ SeaVoice Discord Bot ใช้ text-to-speech
คำถามแรกของเราหลังจากเห็นข้อมูลการใช้งานคือ: ทำไมผู้ใช้บ่อยๆ ถึงใช้ TTS ตั้งแต่แรก? เราได้ตรวจสอบฐานข้อมูลเพื่อหาคำอธิบายบางอย่าง ต่อไปนี้คือคำสั่ง TTS จริงจากผู้ใช้บางรายของเรา
ทำไมคุณไม่พูด?
- นอกจากนี้ฉันพูดไม่ได้เพราะฉันกำลังกิน
- ฉันจะพูดจริงๆ แต่ตอนนี้ฉันอยู่ที่ทำงาน
- ถ้าฉันพูด ฉันจะปลุกครอบครัวของฉัน
- ขอโทษนะ จะไม่พูดมาก คอเจ็บมาก
- ฉันจะพูดได้ แต่แม่ฉันอยู่ที่นี่
- วันนี้ฉันขี้เกียจเกินกว่าจะพูด
- ฉันพูดไม่ได้เพราะฉันป่วย แต่ฉันก็อยากจะเข้าร่วมอยู่ดี :)
- ไม่ได้ปิดเสียงทั้งหมด แค่ต้องใช้ความพยายามในการพูด บางวันก็ต้องใช้ความพยายามมาก
- ขอโทษนะ ฉันปิดเสียงอยู่ ยายฉันกำลังคุยโทรศัพท์และเสียงดัง
- เพราะไมค์ของฉันเสีย
หลังจากพบคำอธิบายเหล่านี้ เราสามารถสรุปได้เป็นไม่กี่เหตุผลหลัก:
- มีอุปสรรคทางกายภาพ (ไมค์เสีย, พูดลำบาก, ป่วย ฯลฯ),
- พวกเขากำลังยุ่งอยู่กับสิ่งอื่น (กินข้าว, ทำงาน ฯลฯ),
- สภาพแวดล้อมของพวกเขาเสียงดังเกินไป หรือพวกเขาต้องเงียบ, หรือ
- เพราะมันสะดวกและพวกเขาชอบใช้มัน
แต่ไม่ว่าเหตุผลที่แท้จริงที่พวกเขาใช้บริการ TTS คืออะไร ผู้ใช้หลายคนแสดงความตื่นเต้นที่พวกเขาสามารถเข้าร่วมการสนทนาในช่องเสียงได้ในขณะที่พวกเขาไม่สามารถทำได้ เราเชื่อว่าบริการ TTS ทำให้ช่องเสียงของ Discord เข้าถึงได้ง่ายขึ้น และนั่นคือเหตุผลหลักที่ผู้ใช้ประจำของเรายังคงใช้บริการนี้
การใช้ภาษา
สิ่งหนึ่งที่โดดเด่นสำหรับฉันในขณะที่ตรวจสอบการสนทนาคือผู้ใช้หลายคนพยายามใช้คำสั่ง text-to-speech กับภาษาต่างๆ ในขณะที่ผู้ใช้บางคนเพียงแค่ต้องการดูว่ามันจะทำงานหรือไม่ หรือคิดว่าการออกเสียงนั้นตลก แต่คนอื่นๆ ก็ยังคงใช้ TTS ในภาษาที่ไม่ใช่ภาษาอังกฤษเป็นระยะเวลานาน!

ผู้ใช้ทดสอบการออกเสียงภาษาสเปนของโมเดล SeaVoice TTS ภาษาอังกฤษ
กรณีนี้เกิดขึ้นโดยเฉพาะกับผู้พูดภาษาสเปน แม้ว่า (ตามที่ผู้ใช้ข้างต้นระบุ) ประสิทธิภาพของ TTS จะไม่ดีสำหรับภาษาสเปน เนื่องจากโมเดลได้รับการฝึกฝนเฉพาะภาษาอังกฤษเท่านั้น ฉันเริ่มจดบันทึกทุกครั้งที่ฉันพบผู้ใช้ที่พยายามใช้คำสั่ง TTS ในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ

จำนวนความพยายามในการส่งคำขอที่ไม่ใช่ภาษาอังกฤษไปยัง TTS
ตารางด้านบนแสดงจำนวนการสนทนาทุกครั้งที่ฉันพบว่ามีอย่างน้อยหนึ่งกรณีที่ใครบางคนใช้ภาษาที่เกี่ยวข้องในคำสั่ง TTS เห็นได้ชัดว่าภาษาสเปนเป็นภาษาที่พบบ่อยที่สุด และเมื่อรวมกับข้อเท็จจริงที่ว่าผู้ใช้หลายคนยังคงใช้ฟังก์ชัน TTS ในภาษาสเปนแม้ว่าประสิทธิภาพจะแย่ ทำให้ฉันสงสัยว่าไม่มีทางเลือกอื่นที่ใช้งานได้จริงบน Discord สำหรับ TTS ภาษาสเปนอยู่แล้วหรือไม่ ไม่ว่าในกรณีใด ผู้คนกำลังพยายามใช้บริการ TTS ของเราสำหรับภาษาอื่น ดังนั้นเราจึงสามารถติดตามได้ว่าภาษาใดมีความต้องการมากที่สุด และใช้ข้อมูลนี้เพื่อแจ้งการฝึกอบรมโมเดลใหม่ของเรา
ความคิดเห็นเกี่ยวกับบอท
หัวข้อที่น่าสนใจอีกอย่างที่พบในบันทึกคือความคิดเห็นเกี่ยวกับบอทเอง โชคดีที่เราเห็นความคิดเห็นเชิงบวกหลายอย่างเกี่ยวกับบอทและประสิทธิภาพของมัน

ผู้ใช้แสดงความคิดเห็นว่าบอททำให้พวกเขารู้สึกมีส่วนร่วมมากขึ้น
ความคิดเห็นที่น่าประทับใจที่สุดมาจากผู้ที่รู้สึกถูกกีดกันจากช่องเสียง แต่ตอนนี้สามารถเข้าร่วมได้แล้วด้วยการเข้าถึงเพิ่มเติมที่บอทมอบให้
เรายังพบข้อเสนอแนะเชิงสร้างสรรค์หลายอย่าง

ผู้ใช้แสดงความคิดเห็นว่าความเร็วของ TTS เป็นปัญหา
ผู้ใช้รายหนึ่งกล่าวว่า เนื่องจากผู้ใช้จะต้องพิมพ์ประโยคทั้งหมดก่อนแล้วจึงส่งออก TTS จึงช้ากว่าการพูดปกติ ดังนั้นบางครั้งการออกเสียง TTS ของพวกเขาจึงพูดช้าไปเล็กน้อยในการสนทนา ดังที่กล่าวไว้ในส่วนก่อนหน้า เรายังเห็นคำขอสำหรับการสนับสนุนภาษาเพิ่มเติม รวมถึงผู้ใช้รายหนึ่งที่หวังว่าจะสามารถแปลระหว่างภาษาโดยใช้บอทได้ การติดตามความคิดเห็นประเภทนี้จะช่วยให้เราวางแผนและปรับปรุงคุณสมบัติในอนาคตได้
ความแปลกใหม่
หลังจากอ่านคำสั่ง TTS ทั้งหมดแล้ว ฉันจะบอกว่าประมาณสองในสามของคำพูดถูกใช้ในการสนทนาทั่วไปกับเพื่อนและคนอื่นๆ ในเซิร์ฟเวอร์ คนส่วนใหญ่เล่นเกมและแชทกับเพื่อนๆ และผู้ใช้เหล่านี้มักจะเป็นผู้ที่ใช้บริการ TTS เป็นประจำ ในทางกลับกัน หนึ่งในสามที่เหลือของคำพูดอยู่ในหมวดหมู่ของ “แค่เล่นสนุก” เมื่อคุณได้รับอำนาจเต็มที่ในการทำให้เสียงพูดอะไรก็ได้ที่คุณต้องการ ฉันเชื่อว่าเป็นธรรมชาติของมนุษย์ที่จะเลือกสิ่งที่โง่ที่สุดหรือหยาบคายที่สุดที่คุณคิดได้เพื่อความสนุกสนาน ฉันจำได้ว่านั่งอยู่ในห้องคอมพิวเตอร์ของโรงเรียนประถมและได้รับความบันเทิงเป็นเวลาหลายชั่วโมงจาก Microsoft Sam (ซึ่งในขณะนั้นเป็นเทคโนโลยีที่ล้ำสมัยมาก) โดยดูว่าเราจะทำให้มันพูดคำว่า “อึ” หรือ “ก้น” ได้หรือไม่ ฉันคิดว่าเด็กๆ อย่างฉันโตขึ้น มีคำศัพท์ที่หลากหลายขึ้น และสุดท้ายก็พบความบันเทิงแบบเดียวกันกับบริการ TTS ของเราบน Discord

ตัวอย่างคำขอ TTS แปลกๆ ที่ผู้ใช้ส่งมา
บางครั้งผู้ใช้ก็พยายามทำให้บอทเสียโดยการพิมพ์สิ่งต่างๆ เช่น: สตริงที่ยาวเกินไป, อักขระพิเศษ, อีโมจิ, URL ฯลฯ นี่เป็นตัวอย่างคลาสสิกของผู้คนที่ทดสอบขีดจำกัดของซอฟต์แวร์ และช่วยให้เรามั่นใจได้ว่าบริการของเราแข็งแกร่งและสามารถจัดการกับอินพุตใดๆ ที่ผู้ใช้ป้อนเข้ามาได้
บางครั้ง ผู้ใช้ก็พบความบันเทิงโดยการทำให้บริการ TTS พูดสิ่งที่หยาบคายและน่ารังเกียจที่สุดเท่าที่จะคิดออกได้ ในบันทึก TTS ฉันคิดว่าฉันเห็นคำหยาบคายทุกคำที่ฉันรู้จัก (และอาจมีบางคำที่ไม่เคยได้ยินมาก่อน), คำเหยียดเชื้อชาติ และเนื้อหาทางเพศที่โจ่งแจ้ง
ประเด็นทางจริยธรรม
น่าเสียดายที่มีหลายวิธีที่แอปพลิเคชัน text-to-speech สามารถนำไปใช้ในทางที่ไม่เหมาะสมได้ เช่น เพื่อส่งเสริมคำพูดที่สร้างความเกลียดชังหรือการกลั่นแกล้งทางไซเบอร์ นอกจากนี้ ในขณะที่คลิปเสียงถูกสังเคราะห์จากโมเดล ข้อมูลที่ใช้ในการฝึกโมเดลมาจากบุคคลจริง และผลลัพธ์จากโมเดลที่ดีสามารถฟังดูแทบจะแยกไม่ออกจากต้นฉบับ
ดังนั้นประเด็นเหล่านี้ เมื่อรวมกับวิธีที่เราเห็นผู้ใช้จริงใช้ (หรือใช้ในทางที่ผิด) บริการ TTS ของเรา ทำให้เกิดคำถามที่สำคัญมากสำหรับ Seasalt.ai ในฐานะบริษัทและ SeaVoice Discord Bot:
- ในฐานะบริษัท เราต้องการให้ผลิตภัณฑ์ของเราถูกใช้ในทางที่อาจก่อให้เกิดความไม่พอใจหรือเป็นอันตรายหรือไม่?
- นักพากย์เสียงมีสิทธิ์อะไรในการใช้เสียงของพวกเขาในแอปพลิเคชัน text-to-speech?
- เรามีสิทธิ์หรือความรับผิดชอบในการเซ็นเซอร์วิธีการใช้บริการของเราหรือไม่?
คำถามเหล่านี้ไม่สามารถตอบได้ หรือแม้แต่สำรวจได้อย่างเต็มที่ในบล็อกโพสต์เดียว อย่างไรก็ตาม บริษัทรู้สึกมีภาระผูกพันที่จะต้องพิจารณาประเด็นเหล่านี้อย่างต่อเนื่องในขณะที่เราดำเนินโครงการ Discord ของเราต่อไปและทำงานร่วมกับนักพากย์เสียงของเราต่อไป
ขอขอบคุณที่ให้ความสนใจในโครงการ Discord Bot และ Voice Intelligence ของเรา! คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับผลิตภัณฑ์ STT ของเราได้ที่ หน้าแรก Speech-to-Text ของเรา สำหรับการสาธิตแบบตัวต่อตัวของผลิตภัณฑ์ Voice Intelligence ของเรา โปรดกรอก แบบฟอร์มจองการสาธิต
ในส่วนของ Discord คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับบอทของเราและเพิ่มไปยังเซิร์ฟเวอร์ของคุณได้จาก SeaVoice Discord Bot Wiki นอกจากนี้ อย่าลังเลที่จะเข้าร่วม เซิร์ฟเวอร์ Discord SeaVoice อย่างเป็นทางการ ของเรา