Call +1 (SMB)-AI-AGENT to book a meeting with the SeaVoice AI agent.
Available 24/7
Back to Blog
Text-to-Speech บน Discord: กรณีศึกษาบอท TTS Discord

Text-to-Speech บน Discord: กรณีศึกษาบอท TTS Discord

ในบล็อกนี้ เราจะมาพูดถึงสิ่งที่เราค้นพบว่าผู้ใช้ Discord ตัวจริงใช้บริการของเราอย่างไร หลังจากตรวจสอบข้อมูล text-to-speech ที่แท้จริงเป็นเวลาหลายเดือน

SeaVoice Discord

หลังจากเปิดตัว SeaVoice ซึ่งเป็นหนึ่งในบอท text-to-speech และ speech-to-text ที่เร็วและแม่นยำที่สุดบน Discord เราต้องการทำความเข้าใจว่าผู้ใช้โต้ตอบกับบริการอย่างไร ในบล็อกนี้ เราจะมาพูดถึงสิ่งที่เราค้นพบหลังจากตรวจสอบข้อมูลผู้ใช้ text-to-speech จริงเป็นเวลาหลายเดือน

SeaVoice: บอท Discord Text-to-Speech & Speech-to-Text

Discord ซึ่งเป็นแพลตฟอร์มที่ใช้เป็นหลักสำหรับการรวมการแชทด้วยเสียงและข้อความ เป็นสนามทดสอบที่ยอดเยี่ยมสำหรับบริการปัญญาเสียงและการประมวลผลภาษาธรรมชาติ เราได้ปรับใช้ SeaVoice Bot ซึ่งมีคำสั่ง text-to-speech และ speech-to-text ไปยัง Discord ในเดือนสิงหาคม 2022 หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการทำงานของบอท หรือดูวิดีโอสาธิตสั้นๆ คุณสามารถเยี่ยมชม SeaVoice Discord Bot Wiki ได้ ในเดือนพฤศจิกายนของปีเดียวกัน เราได้เปิดตัวเวอร์ชันใหม่พร้อมการปรับปรุงแบ็กเอนด์ที่สำคัญ (ตามที่อธิบายไว้ในบล็อกโพสต์ก่อนหน้าของเรา: SeaVoice Discord Bot: การปรับปรุงแบ็กเอนด์และความเสถียร) ที่ช่วยให้เราสามารถบันทึกข้อมูลที่ไม่ระบุชื่อเกี่ยวกับวิธีที่ผู้ใช้โต้ตอบกับบอท SeaVoice ได้ ในบล็อกนี้ เราจะมาดูข้อมูลผู้ใช้ 1 เดือนจากคำสั่ง text-to-speech

การใช้งาน SeaVoice TTS

การใช้งาน text-to-speech รายวันของ SeaVoice Discord Bot ตลอด 7 สัปดาห์

การใช้งาน text-to-speech รายวันของ SeaVoice Discord Bot ตลอด 7 สัปดาห์

ในขณะที่เขียน SeaVoice Bot ได้ถูกเพิ่มไปยังเซิร์ฟเวอร์เกือบ 800 แห่งแล้ว! ตั้งแต่เราเริ่มบันทึกข้อมูลการใช้งานในเดือนพฤศจิกายน เราพบว่าจำนวนคำขอทั้งหมดต่อวันสามารถผันผวนได้ตั้งแต่ 150 ถึงมากกว่า 1,300 (โดยเฉลี่ยประมาณ 560) ผู้ใช้ประมาณ 650 คนได้ลองใช้คำสั่ง TTS อย่างน้อยหนึ่งครั้ง อย่างไรก็ตาม ผู้ใช้ส่วนใหญ่ไม่ได้ใช้มันอย่างสม่ำเสมอหลังจากลองใช้แล้ว จากผู้ใช้ 650 คนที่ลองใช้คำสั่ง TTS ประมาณ 200 คนใช้มัน 20 ครั้งขึ้นไป และมีเพียง 100 คนเท่านั้นที่ใช้มัน 50 ครั้งขึ้นไป กล่าวได้ว่า ผู้ที่ชื่นชอบและพึ่งพาคำสั่ง TTS ใช้มันอย่างกว้างขวาง! ผู้ใช้ 5 อันดับแรกของเราส่งคำขอมากกว่า 1,000 ครั้งในสองเดือนที่ผ่านมา และผู้ใช้สูงสุดส่งคำขอเกือบ 2,500 ครั้งเพียงคนเดียว!

ข้อสังเกต

ทำไมผู้คนถึงใช้ Text-to-Speech

เหตุผลที่ผู้ใช้ SeaVoice Discord Bot ใช้ text-to-speech

เหตุผลที่ผู้ใช้ SeaVoice Discord Bot ใช้ text-to-speech

คำถามแรกของเราหลังจากเห็นข้อมูลการใช้งานคือ: ทำไมผู้ใช้บ่อยๆ ถึงใช้ TTS ตั้งแต่แรก? เราได้ตรวจสอบฐานข้อมูลเพื่อหาคำอธิบายบางอย่าง ต่อไปนี้คือคำสั่ง TTS จริงจากผู้ใช้บางรายของเรา

ทำไมคุณไม่พูด?

- นอกจากนี้ฉันพูดไม่ได้เพราะฉันกำลังกิน
- ฉันจะพูดจริงๆ แต่ตอนนี้ฉันอยู่ที่ทำงาน
- ถ้าฉันพูด ฉันจะปลุกครอบครัวของฉัน
- ขอโทษนะ จะไม่พูดมาก คอเจ็บมาก
- ฉันจะพูดได้ แต่แม่ฉันอยู่ที่นี่
- วันนี้ฉันขี้เกียจเกินกว่าจะพูด
- ฉันพูดไม่ได้เพราะฉันป่วย แต่ฉันก็อยากจะเข้าร่วมอยู่ดี :)
- ไม่ได้ปิดเสียงทั้งหมด แค่ต้องใช้ความพยายามในการพูด บางวันก็ต้องใช้ความพยายามมาก
- ขอโทษนะ ฉันปิดเสียงอยู่ ยายฉันกำลังคุยโทรศัพท์และเสียงดัง
- เพราะไมค์ของฉันเสีย

หลังจากพบคำอธิบายเหล่านี้ เราสามารถสรุปได้เป็นไม่กี่เหตุผลหลัก:

  • มีอุปสรรคทางกายภาพ (ไมค์เสีย, พูดลำบาก, ป่วย ฯลฯ),
  • พวกเขากำลังยุ่งอยู่กับสิ่งอื่น (กินข้าว, ทำงาน ฯลฯ),
  • สภาพแวดล้อมของพวกเขาเสียงดังเกินไป หรือพวกเขาต้องเงียบ, หรือ
  • เพราะมันสะดวกและพวกเขาชอบใช้มัน

แต่ไม่ว่าเหตุผลที่แท้จริงที่พวกเขาใช้บริการ TTS คืออะไร ผู้ใช้หลายคนแสดงความตื่นเต้นที่พวกเขาสามารถเข้าร่วมการสนทนาในช่องเสียงได้ในขณะที่พวกเขาไม่สามารถทำได้ เราเชื่อว่าบริการ TTS ทำให้ช่องเสียงของ Discord เข้าถึงได้ง่ายขึ้น และนั่นคือเหตุผลหลักที่ผู้ใช้ประจำของเรายังคงใช้บริการนี้

การใช้ภาษา

สิ่งหนึ่งที่โดดเด่นสำหรับฉันในขณะที่ตรวจสอบการสนทนาคือผู้ใช้หลายคนพยายามใช้คำสั่ง text-to-speech กับภาษาต่างๆ ในขณะที่ผู้ใช้บางคนเพียงแค่ต้องการดูว่ามันจะทำงานหรือไม่ หรือคิดว่าการออกเสียงนั้นตลก แต่คนอื่นๆ ก็ยังคงใช้ TTS ในภาษาที่ไม่ใช่ภาษาอังกฤษเป็นระยะเวลานาน!

ผู้ใช้ทดสอบการออกเสียงภาษาสเปนของโมเดล SeaVoice TTS ภาษาอังกฤษ

ผู้ใช้ทดสอบการออกเสียงภาษาสเปนของโมเดล SeaVoice TTS ภาษาอังกฤษ

กรณีนี้เกิดขึ้นโดยเฉพาะกับผู้พูดภาษาสเปน แม้ว่า (ตามที่ผู้ใช้ข้างต้นระบุ) ประสิทธิภาพของ TTS จะไม่ดีสำหรับภาษาสเปน เนื่องจากโมเดลได้รับการฝึกฝนเฉพาะภาษาอังกฤษเท่านั้น ฉันเริ่มจดบันทึกทุกครั้งที่ฉันพบผู้ใช้ที่พยายามใช้คำสั่ง TTS ในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ

จำนวนความพยายามในการส่งคำขอที่ไม่ใช่ภาษาอังกฤษไปยัง TTS

จำนวนความพยายามในการส่งคำขอที่ไม่ใช่ภาษาอังกฤษไปยัง TTS

ตารางด้านบนแสดงจำนวนการสนทนาทุกครั้งที่ฉันพบว่ามีอย่างน้อยหนึ่งกรณีที่ใครบางคนใช้ภาษาที่เกี่ยวข้องในคำสั่ง TTS เห็นได้ชัดว่าภาษาสเปนเป็นภาษาที่พบบ่อยที่สุด และเมื่อรวมกับข้อเท็จจริงที่ว่าผู้ใช้หลายคนยังคงใช้ฟังก์ชัน TTS ในภาษาสเปนแม้ว่าประสิทธิภาพจะแย่ ทำให้ฉันสงสัยว่าไม่มีทางเลือกอื่นที่ใช้งานได้จริงบน Discord สำหรับ TTS ภาษาสเปนอยู่แล้วหรือไม่ ไม่ว่าในกรณีใด ผู้คนกำลังพยายามใช้บริการ TTS ของเราสำหรับภาษาอื่น ดังนั้นเราจึงสามารถติดตามได้ว่าภาษาใดมีความต้องการมากที่สุด และใช้ข้อมูลนี้เพื่อแจ้งการฝึกอบรมโมเดลใหม่ของเรา

ความคิดเห็นเกี่ยวกับบอท

หัวข้อที่น่าสนใจอีกอย่างที่พบในบันทึกคือความคิดเห็นเกี่ยวกับบอทเอง โชคดีที่เราเห็นความคิดเห็นเชิงบวกหลายอย่างเกี่ยวกับบอทและประสิทธิภาพของมัน

ผู้ใช้แสดงความคิดเห็นว่าบอททำให้พวกเขารู้สึกมีส่วนร่วมมากขึ้น

ผู้ใช้แสดงความคิดเห็นว่าบอททำให้พวกเขารู้สึกมีส่วนร่วมมากขึ้น

ความคิดเห็นที่น่าประทับใจที่สุดมาจากผู้ที่รู้สึกถูกกีดกันจากช่องเสียง แต่ตอนนี้สามารถเข้าร่วมได้แล้วด้วยการเข้าถึงเพิ่มเติมที่บอทมอบให้

เรายังพบข้อเสนอแนะเชิงสร้างสรรค์หลายอย่าง

ผู้ใช้แสดงความคิดเห็นว่าความเร็วของ TTS เป็นปัญหา

ผู้ใช้แสดงความคิดเห็นว่าความเร็วของ TTS เป็นปัญหา

ผู้ใช้รายหนึ่งกล่าวว่า เนื่องจากผู้ใช้จะต้องพิมพ์ประโยคทั้งหมดก่อนแล้วจึงส่งออก TTS จึงช้ากว่าการพูดปกติ ดังนั้นบางครั้งการออกเสียง TTS ของพวกเขาจึงพูดช้าไปเล็กน้อยในการสนทนา ดังที่กล่าวไว้ในส่วนก่อนหน้า เรายังเห็นคำขอสำหรับการสนับสนุนภาษาเพิ่มเติม รวมถึงผู้ใช้รายหนึ่งที่หวังว่าจะสามารถแปลระหว่างภาษาโดยใช้บอทได้ การติดตามความคิดเห็นประเภทนี้จะช่วยให้เราวางแผนและปรับปรุงคุณสมบัติในอนาคตได้

ความแปลกใหม่

หลังจากอ่านคำสั่ง TTS ทั้งหมดแล้ว ฉันจะบอกว่าประมาณสองในสามของคำพูดถูกใช้ในการสนทนาทั่วไปกับเพื่อนและคนอื่นๆ ในเซิร์ฟเวอร์ คนส่วนใหญ่เล่นเกมและแชทกับเพื่อนๆ และผู้ใช้เหล่านี้มักจะเป็นผู้ที่ใช้บริการ TTS เป็นประจำ ในทางกลับกัน หนึ่งในสามที่เหลือของคำพูดอยู่ในหมวดหมู่ของ “แค่เล่นสนุก” เมื่อคุณได้รับอำนาจเต็มที่ในการทำให้เสียงพูดอะไรก็ได้ที่คุณต้องการ ฉันเชื่อว่าเป็นธรรมชาติของมนุษย์ที่จะเลือกสิ่งที่โง่ที่สุดหรือหยาบคายที่สุดที่คุณคิดได้เพื่อความสนุกสนาน ฉันจำได้ว่านั่งอยู่ในห้องคอมพิวเตอร์ของโรงเรียนประถมและได้รับความบันเทิงเป็นเวลาหลายชั่วโมงจาก Microsoft Sam (ซึ่งในขณะนั้นเป็นเทคโนโลยีที่ล้ำสมัยมาก) โดยดูว่าเราจะทำให้มันพูดคำว่า “อึ” หรือ “ก้น” ได้หรือไม่ ฉันคิดว่าเด็กๆ อย่างฉันโตขึ้น มีคำศัพท์ที่หลากหลายขึ้น และสุดท้ายก็พบความบันเทิงแบบเดียวกันกับบริการ TTS ของเราบน Discord

ตัวอย่างคำขอ TTS แปลกๆ ที่ผู้ใช้ส่งมา

ตัวอย่างคำขอ TTS แปลกๆ ที่ผู้ใช้ส่งมา

บางครั้งผู้ใช้ก็พยายามทำให้บอทเสียโดยการพิมพ์สิ่งต่างๆ เช่น: สตริงที่ยาวเกินไป, อักขระพิเศษ, อีโมจิ, URL ฯลฯ นี่เป็นตัวอย่างคลาสสิกของผู้คนที่ทดสอบขีดจำกัดของซอฟต์แวร์ และช่วยให้เรามั่นใจได้ว่าบริการของเราแข็งแกร่งและสามารถจัดการกับอินพุตใดๆ ที่ผู้ใช้ป้อนเข้ามาได้

บางครั้ง ผู้ใช้ก็พบความบันเทิงโดยการทำให้บริการ TTS พูดสิ่งที่หยาบคายและน่ารังเกียจที่สุดเท่าที่จะคิดออกได้ ในบันทึก TTS ฉันคิดว่าฉันเห็นคำหยาบคายทุกคำที่ฉันรู้จัก (และอาจมีบางคำที่ไม่เคยได้ยินมาก่อน), คำเหยียดเชื้อชาติ และเนื้อหาทางเพศที่โจ่งแจ้ง

ประเด็นทางจริยธรรม

น่าเสียดายที่มีหลายวิธีที่แอปพลิเคชัน text-to-speech สามารถนำไปใช้ในทางที่ไม่เหมาะสมได้ เช่น เพื่อส่งเสริมคำพูดที่สร้างความเกลียดชังหรือการกลั่นแกล้งทางไซเบอร์ นอกจากนี้ ในขณะที่คลิปเสียงถูกสังเคราะห์จากโมเดล ข้อมูลที่ใช้ในการฝึกโมเดลมาจากบุคคลจริง และผลลัพธ์จากโมเดลที่ดีสามารถฟังดูแทบจะแยกไม่ออกจากต้นฉบับ

ดังนั้นประเด็นเหล่านี้ เมื่อรวมกับวิธีที่เราเห็นผู้ใช้จริงใช้ (หรือใช้ในทางที่ผิด) บริการ TTS ของเรา ทำให้เกิดคำถามที่สำคัญมากสำหรับ Seasalt.ai ในฐานะบริษัทและ SeaVoice Discord Bot:

  • ในฐานะบริษัท เราต้องการให้ผลิตภัณฑ์ของเราถูกใช้ในทางที่อาจก่อให้เกิดความไม่พอใจหรือเป็นอันตรายหรือไม่?
  • นักพากย์เสียงมีสิทธิ์อะไรในการใช้เสียงของพวกเขาในแอปพลิเคชัน text-to-speech?
  • เรามีสิทธิ์หรือความรับผิดชอบในการเซ็นเซอร์วิธีการใช้บริการของเราหรือไม่?

คำถามเหล่านี้ไม่สามารถตอบได้ หรือแม้แต่สำรวจได้อย่างเต็มที่ในบล็อกโพสต์เดียว อย่างไรก็ตาม บริษัทรู้สึกมีภาระผูกพันที่จะต้องพิจารณาประเด็นเหล่านี้อย่างต่อเนื่องในขณะที่เราดำเนินโครงการ Discord ของเราต่อไปและทำงานร่วมกับนักพากย์เสียงของเราต่อไป

ขอขอบคุณที่ให้ความสนใจในโครงการ Discord Bot และ Voice Intelligence ของเรา! คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับผลิตภัณฑ์ STT ของเราได้ที่ หน้าแรก Speech-to-Text ของเรา สำหรับการสาธิตแบบตัวต่อตัวของผลิตภัณฑ์ Voice Intelligence ของเรา โปรดกรอก แบบฟอร์มจองการสาธิต

ในส่วนของ Discord คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับบอทของเราและเพิ่มไปยังเซิร์ฟเวอร์ของคุณได้จาก SeaVoice Discord Bot Wiki นอกจากนี้ อย่าลังเลที่จะเข้าร่วม เซิร์ฟเวอร์ Discord SeaVoice อย่างเป็นทางการ ของเรา

Related Articles

เจ้าของธุรกิจ: ใช้ Google Business Messages เพื่อมีส่วนร่วมในช่วงนอกเวลาทำการ!
28/3/2565

เจ้าของธุรกิจ: ใช้ Google Business Messages เพื่อมีส่วนร่วมในช่วงนอกเวลาทำการ!

ในขณะที่โปรไฟล์ธุรกิจของ Google ช่วยให้เจ้าของธุรกิจสามารถแชทกับลูกค้าได้โดยตรง แต่ Google Business Messages ช่วยให้สามารถผสานรวมกับตัวแทนเสมือนได้

เทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติ (IVR) ของคุณได้หรือไม่?
13/10/2567

เทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติ (IVR) ของคุณได้หรือไม่?

สำรวจว่าเทคโนโลยีเสียงใหม่ของ OpenAI สามารถแทนที่ระบบตอบรับเสียงอัตโนมัติในปัจจุบันของคุณได้หรือไม่

Ready to Transform Your Customer Communications?

See how Seasalt.ai can help your business automate support, capture leads, and deliver exceptional customer experiences.

Any questions? We follow up with every message.