Meta เคลมว่า Voicebox เป็น AI ตัวแรกที่สามารถสรุปงานแปลงข้อความเป็นคำพูด (text-to-speech) ที่ไม่ได้รับการฝึกฝนให้สำเร็จและอธิบายว่าเป็น “ความก้าวหน้าครั้งใหญ่ (breakthrough)”
Meta AI เพิ่งเปิดตัวเครื่องมือสร้างข้อความเป็นคำพูด (breakthrough” text-to-speech, TTS) ที่ “ก้าวหน้า” เคลมว่าสร้างผลลัพธ์ได้เร็วกว่าโมเดลปัญญาประดิษฐ์ที่ล้ำสมัยถึง 20 เท่าพร้อมประสิทธิภาพที่เทียบเท่ากัน
ระบบใหม่นี้มีชื่อว่า Voicebox ละทิ้งสถาปัตยกรรม TTS แบบดั้งเดิม หันไปใช้โมเดลที่คล้ายกับ ChatGPT ของ OpenAI หรือ Bard ของ Google
ท่ามกลางข้อแตกต่างหลักระหว่าง Voicebox กับโมเดล TTS ที่คล้ายกัน เช่น ElevenLabs Prime Voice AI ก็คือ ข้อเสนอของ Meta สามารถสรุปได้ผ่านการเรียนรู้ในบริบท
เช่นเดียวกับ ChatGPT หรือทรานสฟอร์เมอร์รุ่นอื่น ๆ Voicebox ใช้ชุดข้อมูลการฝึกอบรมขนาดใหญ่ ความพยายามก่อนหน้านี้ในการใช้ข้อมูลเสียงจำนวนมากส่งผลให้เอาต์พุตเสียงลดลงอย่างมาก ด้วยเหตุนี้ ระบบ TTS ส่วนใหญ่จึงใช้ชุดข้อมูลขนาดเล็กที่มีป้ายกำกับสูง
Meta ก้าวข้ามข้อจำกัดนี้ผ่านแผนการฝึกอบรมแบบใหม่ที่ทิ้งป้ายกำกับและการดูแลจัดการสำหรับสถาปัตยกรรมที่สามารถ “เติม” ข้อมูลเสียงได้
ตามที่ Meta AI ระบุไว้ในบล็อกโพสต์เมื่อวันที่ 16 มิถุนายน นั้น Voicebox เป็น “รุ่นแรกที่สามารถพูดคุยทั่วไปกับงานสร้างเสียงพูด ซึ่งไม่ได้รับการฝึกอบรมเป็นพิเศษเพื่อให้บรรลุผลสำเร็จด้วยประสิทธิภาพที่ล้ำสมัย”
สิ่งนี้ทำให้ Voicebox สามารถแปลข้อความเป็นคำพูด ลบเสียงรบกวนที่ไม่ต้องการด้วยการสังเคราะห์เสียงพูดแทน และแม้แต่ใช้เสียงของผู้พูดกับเอาต์พุตภาษาต่าง ๆ

จากเอกสารการวิจัยที่เผยแพร่โดย Meta ระบบ Voicebox ที่ผ่านการฝึกอบรมมาล่วงหน้าสามารถทำสิ่งเหล่านี้ให้สำเร็จได้โดยใช้เพียงข้อความเอาต์พุตที่ต้องการและคลิปเสียงความยาวสามวินาที
การมาถึงของการสร้างสุนทรพจน์ที่มีประสิทธิภาพเกิดขึ้นในเวลาที่อ่อนไหวเป็นพิเศษ เนื่องจากบริษัทสื่อสังคมออนไลน์ยังคงต่อสู้กับการกลั่นกรอง และในสหรัฐอเมริกา การเลือกตั้งประธานาธิบดีที่กำลังจะเกิดขึ้นเป็นภัยคุกคามที่จะทดสอบขีดจำกัดของการตรวจจับข้อมูลที่ผิดทางออนไลน์อีกครั้ง
ตัวอย่างเช่น อดีตประธานาธิบดีโดนัลด์ ทรัมป์ ของสหรัฐฯ กำลังเผชิญข้อกล่าวหาว่าเขาจัดการเอกสารลับของรัฐบาลอย่างไม่ถูกต้องหลังจากออกจากตำแหน่ง ในบรรดาหลักฐานที่ถูกอ้างถึงในคดีนี้ ได้แก่ การบันทึกเสียงที่เขาถูกกล่าวหาว่ายอมรับการกระทำผิดที่อาจเกิดขึ้น
แม้ว่าขณะนี้ยังไม่มีข้อบ่งชี้ว่าอดีตประธานาธิบดีตั้งใจที่จะปฏิเสธเนื้อหาที่อธิบายไว้ในไฟล์เสียง แต่กรณีของเขาแสดงให้เห็นว่าความสมบูรณ์ของข้อมูลเป็นหัวใจสำคัญของระบบกฎหมายของสหรัฐฯ และรวมถึงประชาธิปไตยด้วย
Voicebox ไม่ใช่เครื่องมือประเภทแรก แต่ดูเหมือนจะเป็นเครื่องมือที่แข็งแกร่งที่สุด ด้วยเหตุนี้ Meta จึงพัฒนาเครื่องมือสำหรับพิจารณาว่าเสียงพูดถูกสร้างขึ้นโดยมันหรือไม่ และบริษัทอ้างว่าสามารถ “ตรวจจับได้เล็กน้อย” ความแตกต่างระหว่างเสียงจริงและเสียงปลอม ตามที่บล็อกโพสต์ระบุไว้
เช่นเดียวกับนวัตกรรม AI ใหม่ที่ทรงพลังอื่น ๆ เราตระหนักดีว่าเทคโนโลยีนี้ทำให้เกิดการใช้งานในทางที่ผิดและเป็นอันตรายโดยไม่ได้ตั้งใจ ในบทความของเรา เราได้ลงรายละเอียดว่าเราสร้างตัวแยกประเภทที่มีประสิทธิภาพสูงซึ่งสามารถแยกความแตกต่างระหว่างเสียงพูดและเสียงจริงที่สร้างด้วย Voicebox เพื่อลดความเสี่ยงที่อาจเกิดขึ้นในอนาคตได้อย่างไร
แหล่งข่าว -> cointelegraph.com