Trí tuệ nhân tạo do Google DeepMind phát triển có thể phát âm gần giống con người, một bước tiến cực kỳ quan trọng.

DeepMind, hãng phát triển trí tuệ nhân tạo (AI) của Google, chính là đơn vị chế tạo ra AlphaGo, phần mềm đánh bại kiện tướng cờ vây hạng 5 thế giới. Và nay, họ tiếp tục khiến cả thế giới bất ngờ khi tuyên bố rằng đã tạo ra một AI có thể phát âm gần giống với con người, mức độ phát âm tốt nhất mà một máy tính có thể đạt được.

Được đặt tên là WaveNet, AI mới của DeepMind hoạt động như một mạng lưới thần kinh sâu sắc với khả năng phát âm bằng cách lấy lẫu phát âm thật của con người và sau đó hình thành những âm thanh thô. Những thử nghiệm đầu tiên bằng tiếng Anh và tiếng Trung Quốc cho thấy WaveNet có khả năng phát âm tốt hơn nhiều so với hệ thống text-to-speech hiện tại. Dẫu vậy, giọng nói của WaveNet vẫn chưa đạt mức thuyết phục giống như giọng của con người.

Hiện tại, hệ thống text-to-speech hoạt động theo một trong hai cách: đầu tiên giọng nói của con người được phát qua các bản ghi âm sẽ bị phân tách thành các mảnh nhỏ và được sắp xếp lại khi cần. Một cách khác đó là dựa trên giọng nói tạo ra bởi máy tính được lập trình với các quy tắc về ngữ pháp và âm thanh, không cần các bản ghi âm. Tuy nhiên, giọng nói tạo ra bởi cả hai phương thức này đều không mượt mà và không có cảm xúc.

WaveNet, mặt khác, sử dụng đầu vào là các bản ghi âm giọng nói thực sự của con người nhưng nó học và bắt chước những giọng nói này chứ không cắt chúng ra để ghép lại.

So với giọng nói của con người, WaveNet chỉ kém hơn một chút thôi

Thực tế, bạn còn ấn tượng hơn khi biết WaveNet có thể áp dụng hơi thở và chuyển động miệng nhân tạo để mô phỏng các biến tố, cảm xúc và dấu câu trong khi nói. Thậm chí, AI này còn có thể soạn nhạc. Các nhà nghiên cứu cho nó nghe một số tác phẩm cổ điển và sau đó nó sẽ tạo ra bản nhạc của riêng mình.

WaveNet hiện chưa được áp dụng vào các ứng dụng và trợ lý giọng nói của Google nhưng bạn có thể nghe một số đoạn phát âm mẫu của nó trong video dưới đây, đảm bảo bạn sẽ không tin rằng đây là giọng của trí tuệ nhân tạo chứ không phải người:

Theo Slashgear

Realization of artificial intelligence

Highlight

Những điều thú vị khi dùng Trí tuệ nhân tạo của Viettel

Tuesday, September 13, 2016

Ca sĩ, nhạc sĩ, diễn giả sẽ là đối tượng tiếp theo bị robot cướp mất việc làm

Trí tuệ nhân tạo do Google DeepMind phát triển có thể phát âm gần giống con người, một bước tiến cực kỳ quan trọng.

No comments:

Post a Comment

Search google