Highlight

Những điều thú vị khi dùng Trí tuệ nhân tạo của Viettel

Những người dùng Internet tại Việt Nam thường lấy “chị Google” ra để… giải trí. Khi “chị” đọc văn bản hay chỉ đường cho người tham gia gi...

Sunday, September 11, 2016

Công nghệ nhận diện giọng nói giờ đã nhanh hơn và chính xác hơn ta gõ phím gấp 3 lần


Có lẽ trong tương lai câu cảnh báo “Đừng gõ phím trong lúc lái xe” sẽ thay đổi.

Máy tính đã đả bại con người ở nhiều lĩnh vực, thậm chí là trong cờ vua. Và giờ chúng lại đánh bại ta ở một mảng nữa: thi gõ chữ xem ai nhanh hơn.
Công nghệ nhận diện giọng nói đã tới được giới hạn mà chúng nhanh hơn cả ta gõ bằng bàn phím và thậm chí còn chính xác hơn. Theo một nghiên cứu mới bởi Đại học Stanford, Đại học Washington và công ty internet Baidu của Trung Quốc thì những kết luận trên hoàn toàn chính xác, dựa trên hai ngôn ngữ được thử là tiếng Anh và tiếng Trung phổ thông.

Trưởng ban khoa học của Baidu, anh Andrew Ng nói rằng hiển nhiên là ta không nên thấy xấu hổ vì sự đột phá công nghệ này, anh nói: “Theo dọc chu trình tiến hóa, loài người không được thiết kế để liên lạc bằng mấy ngón tay chọc lên một bàn phím bé xíu trên điện thoại. Sử dụng ngôn ngữ nói luôn là cách giao tiếp tự nhiên của con người để liên lạc với nhau”.
Các nhà nghiên cứu đã dựng nên một cuộc thi giữa người nói và người gõ, cuộc thi với 32 người tham dự với độ tuổi từ 19 tới 32. Những thí sinh sẽ lần lượt gõ những câu ngắn vào iPhone để thi với hệ thống, và kết quả cho thấy rằng hệ thống nhận diện giọng nói tạo ra được câu nhanh hơn các thí sinh gõ tay tới tận 3 lần. Tốc độ vượt trội của hệ thống nhận diện giọng nói so với việc phải gõ tay.
Kết quả của cuộc nghiên cứu nhỏ này đã làm nhà khoa học tại Đại học Stanford, James Landay ngạc nhiên tột độ: “Tôi hết sức ngỡ ngàng khi kết quả lên tới tận 3 lần nhanh hơn! Tôi nghĩ rằng mọi người sẽ chuyển hết sang dùng hệ thống này nếu như họ biết được nó nhanh và tốt hơn tới mức nào”.
Việc nhận diện giọng nói vẫn còn đó những tiếng xấu, nhưng rất có thể là do người dùng chứ không phải do bản thân hệ thống. Như nàng Siri của Apple vẫn còn gặp khó khăn trong việc trả lời những câu hỏi đơn giản.
Các đội ngũ nghiên cứu vẫn chưa thử nghiệm với mẫu câu hỏi, họ tập trung hơn vào việc cải tiến khả năng nhận diện từ ngữ khi mà những từ đó được đọc không chuẩn xác. Trong bản tiếng Anh, hệ thống viết nhầm ít hơn 20,4% so với người gõ thông thường, ở trong tiếng Trung phổ thông thì tỉ lệ ít hơn lên tới 60,4%.
Các nhà nghiên cứu mong muốn rằng kết quả của những nghiên cứu này sẽ khuyến khích người dùng “nói chuyện” với chiếc điện thoại của mình nhiều hơn.

Siri của Apple vẫn là trợ thủ đắc lực.
Siri của Apple vẫn là trợ thủ đắc lực.

Người dùng thường ngồi trò chuyện với Siri và nhận thấy rằng thỉnh thoảng cô nàng này không đưa ra câu trả lời đúng cho câu hỏi hay câu thoại của họ. Và họ nghĩ rằng không nên sử dụng Siri cho việc nhắn tin hay soạnemail thảo smartphone, văn bản. Nhưng giờ thì mọi chuyện đã khác, hệ thống nhận diện giọng nói đã tốt hơn rất nhiều rồi”, giáo sư James Landay khẳng định.
Hồi những năm 1990, các nhà khoa học tìm ra rằng các công cụ nhận diện giọng nói kém chính xác hơn gõ phím rất nhiều. Những từ lóng, những tạp âm thường xuyên làm hệ thống bối rối.
Công nghệ đã đổi khác, và đơn giản nhất, bạn thấy rằng microphone đặt trong điện thoại giờ đây đã có thể nghe chính xác hơn rất nhiều. Với chu trình “deep learning” thì siêu máy tính đã có thể học hỏi được rất nhanh và rất nhiều.
Gần đây, những thông số chỉ ra rằng người ta đang sử dụng công cụ hỗ trợ bằng giọng nói nhiều hơn: 65% người sử dụng ở Mỹ có dùng những công cụ như vậy. Nhiều công ty công nghệ đang đánh vào mảng nhận diện giọng nói này, và Google cũng như Amazon vẫn liên tục tuyển mộ những nhà phát triển cho các sản phẩm hỗ trợ giọng nói của họ.
Hiển nhiên là việc chuyển lời nói thành câu chữ sẽ tiện lợi hơn việc ngồi gõ, đơn cử như là lúc ta đang lái xe. Có lẽ trong tương lai câu cảnh báo “Đừng gõ phím trong lúc lái xe” sẽ thay đổi.
Tham khảo NPR

No comments:

Post a Comment