
AI giúp một phụ nữ Anh tìm lại giọng nói đã mất sau 25 năm
Một phụ nữ Anh mắc bệnh xơ cứng teo cơ một bên đã mất khả năng nói, nay có thể trò chuyện lại bằng chính giọng nói của mình nhờ trí tuệ nhân tạo (AI) và một đoạn băng video gia đình chỉ dài tám giây với âm thanh gần như không nghe rõ.
Sarah Ezekiel, một họa sĩ, mất đi giọng nói sau khi được chẩn đoán mắc bệnh này ở tuổi 34, khi đang mang thai đứa con thứ hai, cách đây 25 năm. Căn bệnh xơ cứng teo cơ này dần dần phá hủy các phần của hệ thần kinh, có thể gây yếu cơ lưỡi, miệng và họng, khiến nhiều bệnh nhân mất hoàn toàn khả năng nói.
Những năm sau khi được chẩn đoán, Ezekiel, sống ở phía bắc London, có thể dùng máy tính và công nghệ tạo giọng nói để giao tiếp, nhưng giọng đó hoàn toàn không giống giọng thật của bà. Bà cũng tiếp tục sự nghiệp họa sĩ bằng cách sử dụng con trỏ máy tính để vẽ tranh.
Tuy nhiên, hai con của bà, Aviva và Eric, lớn lên mà chưa bao giờ biết mẹ mình từng nói như thế nào.
Những năm gần đây, các chuyên gia ngày càng có khả năng sử dụng công nghệ để tái tạo giọng gốc của một người. Nhưng phương pháp này thường cần các bản ghi âm dài, chất lượng tốt, và ngay cả khi đó, giọng tạo ra thường vẫn “rất phẳng và đơn điệu”, theo Simon Poole của công ty truyền thông y tế Smartbox (Anh).
Poole nói với AFP rằng ban đầu công ty yêu cầu Ezekiel cung cấp khoảng một giờ ghi âm. Những người có nguy cơ mất khả năng nói do bệnh teo cơ này thường được khuyến khích ghi âm lại giọng càng sớm càng tốt để lưu giữ “bản sắc” cùng khả năng giao tiếp của họ.
Tuy nhiên, vào thời kỳ trước khi có điện thoại thông minh, việc có sẵn các bản ghi âm phù hợp là hiếm. Khi Ezekiel chỉ tìm được một đoạn clip rất ngắn, chất lượng kém, Poole nói rằng ông “rất buồn”. Đoạn video gia đình từ những năm 1990 chỉ dài tám giây, âm thanh bị nghẹt và lẫn tiếng TV nền.
Poole sau đó đã dùng công nghệ của ElevenLabs — một công ty chuyên về giọng nói bằng AI có trụ sở tại New York — vốn có thể tạo ra giọng dựa trên dữ liệu rất ít nhưng vẫn tự nhiên và giống con người. Ông dùng một công cụ AI để tách mẫu giọng khỏi đoạn clip, và một công cụ khác — được huấn luyện từ nhiều giọng thật để bù vào phần thiếu — để tạo ra giọng hoàn chỉnh.
Kết quả khiến Ezekiel vô cùng vui mừng: giọng nói rất giống giọng gốc của bà, với chất giọng London đặc trưng và chút nói ngọng (slight lisp) mà trước kia bà từng ghét.
“Tôi gửi mẫu cho bà ấy, và bà ấy viết email trả lời rằng suýt khóc khi nghe lại,” Poole kể. “Bà ấy còn mở cho một người bạn từng biết giọng thật của mình nghe, và người đó nói như thể bà đã lấy lại chính giọng nói ngày xưa.”
Tại Anh, 8/10 bệnh nhân mắc chứng teo cơ này gặp vấn đề về giọng nói sau chẩn đoán. Tuy nhiên, giọng do máy tính hiện nay tạo ra thường có nhịp điệu, cao độ và âm sắc “khá giống robot”.
“Điểm tiến bộ thực sự của công nghệ AI mới này là giọng nói trở nên rất người, giàu cảm xúc, và thực sự đem lại tính nhân văn cho giọng nói vốn trước kia nghe hơi máy móc,” Poole nói. Ông nhấn mạnh rằng cá nhân hóa giọng nói là cách để lưu giữ “bản sắc” của một người.
“Đặc biệt khi một người mắc bệnh ở tuổi trưởng thành và mất giọng nói, việc có thể nói lại bằng chính giọng gốc của mình là điều rất quan trọng, hơn là dùng một giọng nhân tạo sẵn có,” ông nói thêm.
Eric, con trai của Sarah Ezekiel, lớn lên mà chưa từng biết giọng thật của mẹ mình như thế nào. Ảnh: AFP