พูดข้อความเป็นคําพูด
การสังเคราะห์คําพูดเป็นการผลิตเทียมของการพูดของมนุษย์ ระบบคอมพิวเตอร์ที่ใช้เพื่อจุดประสงค์นี้เรียกว่าเครื่องสังเคราะห์คําพูดและสามารถนํามาใช้ในผลิตภัณฑ์ซอฟต์แวร์หรือฮาร์ดแวร์ ระบบการแปลงข้อความเป็นคําพูด (TTS) จะแปลงข้อความภาษาปกติให้เป็นคําพูด ระบบอื่น ๆ แสดงการแสดงภาษาศาสตร์สัญลักษณ์เช่นการถอดความการออกเสียงเป็นคําพูด [1] คําพูดสังเคราะห์สามารถสร้างขึ้นได้โดยการเชื่อมชิ้นส่วนของคําพูดที่บันทึกไว้ที่เก็บไว้ในฐานข้อมูล ระบบมีขนาดแตกต่างกันในขนาดของหน่วยคําพูดที่เก็บไว้ ระบบที่จัดเก็บโทรศัพท์หรือไดโฟนให้ช่วงเอาต์พุตที่ใหญ่ที่สุด แต่อาจขาดความชัดเจน สําหรับโดเมนการใช้งานเฉพาะการจัดเก็บคําหรือประโยคทั้งหมดช่วยให้ได้ผลลัพธ์ที่มีคุณภาพสูง อีกทางเลือกหนึ่งคือซินธิไซเซอร์สามารถรวมแบบจําลองของระบบทางเดินเสียงและลักษณะเสียงของมนุษย์อื่น ๆ เพื่อสร้างเอาต์พุตเสียง "สังเคราะห์" อย่างสมบูรณ์ [2] คุณภาพของการสังเคราะห์คําพูดถูกตัดสินโดยความคล้ายคลึงกับเสียงของมนุษย์และความสามารถในการเข้าใจ โปรแกรมแปลงข้อความเป็นคําพูดที่ไม่สามารถอ่านได้ช่วยให้ผู้มีความบกพร่องทางสายตาหรือผู้ทุพพลภาพในการอ่านสามารถฟังงานที่เขียนไว้บนคอมพิวเตอร์ที่บ้านได้ ระบบปฏิบัติการคอมพิวเตอร์จํานวนมากได้รวมการสังเคราะห์คําพูดตั้งแต่ต้นทศวรรษ 1990
ภาพรวมของระบบ TTS ทั่วไป
ประกาศอัตโนมัติ เมนู0:00 เสียงสังเคราะห์ที่ประกาศรถไฟที่มาถึงในสวีเดน มีปัญหาในการเล่นแฟ้มนี้หรือไม่ ดูวิธีใช้สื่อ
ตัวอย่างของ Microsoft Sam เมนู0:00 เสียงสังเคราะห์คําพูดเริ่มต้นของ Microsoft Windows XP กล่าวว่า "สุนัขจิ้งจอกสีน้ําตาลอย่างรวดเร็วกระโดดข้ามสุนัขขี้เกียจ 1,234,567,890 ครั้ง ซอย" มีปัญหาในการเล่นแฟ้มนี้หรือไม่ ดูวิธีใช้สื่อ ระบบแปลงข้อความเป็นคําพูด (หรือ "โปรแกรม") ประกอบด้วยสองส่วน:[3] ส่วนหน้ามีสองงานหลัก ขั้นแรก จะแปลงข้อความดิบที่มีสัญลักษณ์ เช่น ตัวเลขและตัวย่อให้เทียบเท่ากับคําที่เขียนออก กระบวนการนี้มักเรียกว่าการทําให้ข้อความเป็นปกติ ส่วนหน้าจะกําหนดการถอดเสียงการออกเสียงให้กับแต่ละคํา และแบ่งและทําเครื่องหมายข้อความเป็นหน่วย prosodic เช่น วลี ประโยค และประโยค กระบวนการกําหนดการถอดเสียงการออกเสียงให้กับคําเรียกว่าการแปลงข้อความเป็นโทรศัพท์หรือกราฟีนต่อโทรศัพท์ การถอดความทางการออกเสียงและข้อมูล prosody ร่วมกันทําให้เป็นตัวแทนทางภาษาสัญลักษณ์ที่เป็นเอาท์พุทโดยส่วนหน้า ด้านหลัง—มักจะเรียกว่าซินธิไซเซอร์—แล้วแปลงการแสดงภาษาสัญลักษณ์เป็นเสียง. ในบางระบบส่วนนี้รวมถึงการคํานวณของ prosody เป้าหมาย (รูปทรงสนามระยะเวลาโทรศัพท์)[4] ซึ่งจะถูกกําหนดในคําพูดเอาต์พุต
ประวัติรุ่น
- เวอร์ชัน 1.0 โพสต์เมื่อ 2013-10-06
รายละเอียดหลักสูตร
- ประเภท: เสียงและมัลติมีเดีย > เครื่องเล่นไฟล์เสียง
- Publisher: Phelipe Maia
- ใบ อนุญาต: ฟรี
- ราคา: N/A
- เวอร์ชัน: 1.0
- แพ ลตฟอร์ม: android