Năm 1950, Alan Turing, cha đẻ ngành khoa học máy tính, đặt ra một câu hỏi đồng nghĩa với thách thức cho nhân loại: “Làm thế nào để biết được một chiếc máy tính có suy nghĩ hay không?”. Năm 1997, khi siêu máy tính Deep Blue hạ gục huyền thoại cờ vua Gary Kasparov trong trận đấu được coi là kỳ vĩ nhất của lịch sử cờ vua, cựu quán quân thế giới thừa nhận: “Tôi cảm thấy sự hiện hữu của trí thông minh ở phía bên kia bàn cờ!”. Ngày 16/2 năm nay, thêm hai bộ óc siêu việt khác của loài người đối mặt – và thua cuộc – một “bộ óc” mới trong ngành máy tính mang tên Watson. Với thành tựu mới nhất này, liệu chúng ta có thể nói gì về tư duy của máy, và hy vọng gì ở ngành trí tuệ nhân tạo trong tương lai?
1. Sự lên ngôi của vị chúa tể mới
Hỏi: Rõ là “Thời buổi gian khó”! Một cơn động đất lớn tấn công New Madrid, Missouri, vào ngày 7 tháng 2 năm 1812, cùng ngày mà tác giả này tấn công Anh Quốc. (“Hard times,” indeed! A giant quake struck New Madrid, Missouri, on Feb. 7, 1812, the day this author struck England.)
Đáp: Ai là Charles Dickens? (Who is Charles Dickens?)
Đây là một ví dụ điển hình của trò chơi truyền hình nổi tiếng tại Mỹ mang tên
Jeopardy!. Khác với các loại trò chơi đố vui có thưởng theo kiểu “Ai muốn làm triệu phú”,
Jeopardy! đòi hỏi kiến thức sâu rộng của người chơi vì các câu hỏi chứa đầy cạm bẫy (chơi chữ, đảo ngữ nghĩa, gợi ý mang tính lừa phỉnh, vân vân) đòi hỏi phải xử lý thông tin cực kỳ phức tạp trong một thời gian cực ngắn.
Một điểm đặc biệt nữa là câu hỏi và câu trả lời của
Jeopardy! đảo vị trí cho nhau: câu hỏi là câu trả lời mang tính xác định về một đối tượng nào đó, còn câu trả lời là một câu hỏi về đối tượng này. Trong ví dụ kể trên, cụm từ “Thời buổi gian khó” (hard times) nhắc đến một tác phẩm nổi tiếng của
Charles Dickens. “Thời buổi gian khó” cũng được dùng với ngụ ý về sự gian khó gây ra bởi cơn động đất. Từ “tấn công” (struck) được dùng với hai nghĩa, nghĩa đen nói về tác động của trận động đất, còn nghĩa bóng nói về ngày chào đời của Charles Dickens (ngày động đất là ngày sinh của Dickens). Các nhà vô địch
Jeopardy! vì thế thường được xem là đại diện cho trí thông minh và sự uyên bác.
Luật chơi của Jeopardy! đại khái như sau. Mỗi trận đấu gồm ba vòng, với ba đấu thủ. Hai vòng đầu mỗi vòng có 30 câu hỏi, chia làm 6 phạm trù, mỗi phạm trù 5 câu hỏi. Mỗi câu hỏi ở 2 vòng đầu có giá trị tiền nhất định. Sau khi nghe đọc câu hỏi các đấu thủ bấm nút tranh quyền trả lời. Trả lời đúng thì thắng số tiền của câu hỏi đó, trả lời sai thì bị mất số tiền này và còn bị trừ vào khoản tiền đã thắng.
Mỗi đấu thủ thường chỉ có khoảng 1, 2 giây để bấm nút nếu không muốn bị giành mất quyền trả lời. Vòng thi cuối cùng chỉ có một câu hỏi duy nhất, thí sinh dùng tiền đã thắng để “đặt cược” ngay cả trước khi biết được câu hỏi. Thắng thì thắng thêm số tiền cược đó, còn thua thì bị trừ đi. Phạm vi đề tài thi rất “bao la”: lịch sử, sự kiện đương đại, văn học, nghệ thuật, khoa học, ngôn ngữ, chơi chữ, vân vân.
Hai huyền thoại hiện nay của trò chơi này là
Ken Jennings (người thắng kỷ lục 74 trận liên tục trong năm 2004 với tổng số tiền thắng cuộc hơn 3 triệu đô la) và
Brad Rutter (người thắng “cúp C1″ – cúp các nhà vô địch
Jeopardy! – với tổng số tiền thắng nhiều nhất trong lịch sử
Jeopardy!: hơn 3 triệu rưỡi đô la). Từ 14 đến 16 tháng 2/2011 vừa qua, cả hai bộ óc siêu phàm này đã trải qua ba trận “đại chiến” lịch sử với một đối thủ mới tò te tên là
Watson – một hệ thống máy tính của hãng IBM, được đặt tên để tưởng nhớ chủ tịch đầu tiên của hãng này là Thomas Watson.
Ở câu hỏi cuối cùng của vòng thi đấu cuối cùng, bên cạnh câu trả lời (đúng) của mình, Ken Jennings tuyên bố nửa đùa nửa thật (trước khi biết rằng Watson cũng trả lời đúng câu hỏi này): “Cá nhân tôi hoan nghênh các vị chúa tể mới“.
2. Trí tuệ nhân tạo, từ logic cổ điển đến thống kê tính toán
Trước khi phủi tay xuề xòa về sự không cân sức của trận đấu
David tí hon chọi Goliath khổng lồ này, ta phải cẩn thận xem lại xem … ai là David và ai là Goliath. Không thể chối cãi được rằng, dù là lính mới, Watson là một
đối thủ khổng lồ, kích thước tương đương … 10 cái tủ lạnh, chứa khoảng
200 triệu trang tài liệu (bằng khoảng 1 triệu quyển sách), 16 Terabytes (16 nghìn tỉ bytes) bộ nhớ, và có khả năng xử lý 80 Teraflops một giây.
Tuy nhiên, kích thước và số lượng không nhất thiết tỉ lệ thuận với sự thông minh. Một triệu con khỉ không gõ được vở kịch Hamlet. Vả lại, dù có tính về số lượng thì sự mất cân xứng cũng không rõ ràng lắm là ngả về phía nào. Ken và Brad mỗi người có
khoảng 100 tỉ neurons thần kinh, và có hơn 30 năm tuổi đời để học số kiến thức mà họ có, cộng với cả chục năm “kinh nghiệm chiến trường”: xử lý sự lắt léo của
Jeopardy!. Watson ra đời khoảng 2004, có tổng cộng 2880 bộ vi xử lý POWER7 mới của IBM. Mỗi bộ vi xử lý gồm bốn lõi song song với tổng cộng khoảng 1,2 tỉ transitors, vị chi là gần 3 nghìn rưỡi tỉ transitors, gấp 35 lần số neuron thần kinh một người có. Thế nhưng, mỗi neuron thần kinh lại có sức mạnh tính toán mạnh gấp nhiều lần một transitor, vì mỗi neuron thần kinh là một bộ vi xử lý sinh học, cho dù thuộc loại sơ khai.
Những thành tựu khoa học và công nghệ nào đã mang lại thành công của Watson? Chiến thắng của Watson là thành tựu tổng hợp của nhiều phân ngành khoa học máy tính: thuật toán, các bộ vi xử lý, hệ xử lý song song, mạng máy tính, trí tuệ nhân tạo, cơ sở dữ liệu, vân vân. Trong khuôn khổ bài này chúng ta sẽ chỉ đề cập đến mảng trí tuệ nhân tạo (TTNT).
Ngay từ thời kỳ đầu của TTNT, người ta đã biết rằng một trong những yếu tố cần thiết làm nên một máy tính thông minh là khả năng biểu diễn và xử lý tri thức. Tri thức phải được mã hóa bằng một thứ ngôn ngữ mà máy tính có thể hiểu được.
Logic đã là sự lựa chọn hiển nhiên, vì đó cũng là ngôn ngữ của bộ vi xử lý. Với một
kho tri thức bằng ngôn ngữ logic, các vấn đề suy diễn biến thành các bài toán suy luận logic thuần túy, một địa hạt mà máy tính sẽ dễ dàng thống trị.
Cho đến tận những năm 80 của thế kỷ trước, người ta tập trung phần lớn sức lực vào vấn đề tự động hóa và cải thiện hiệu quả của suy diễn logic. Làm thế nào để tìm kiếm ra câu trả lời thật nhanh từ những quy luật định sẵn. Deep Blue chính là một ví dụ điển hình của sự thành công ngoạn mục trong công nghệ tìm kiếm trong một môi trường có quy luật chặt chẽ. Máy tính có thể chơi rất tốt các trò chơi loại này, khi mà các quy luật của cuộc chơi và mọi thông tin đã được cho trước rõ ràng.
Nhưng làm thế nào để thiết lập được kho tri thức định sẵn cho máy tính? Làm thế nào để kho tri thức ấy không ngừng được thu lượm, cập nhật và chắt lọc từ sự tiếp xúc của máy tính với thế giới bên ngoài? Máy tính có thể chơi cờ rất giỏi, nhưng khả năng thu lượm thông tin và thích ứng với bên ngoài còn thua xa một con chuột bạch. Và, dạng giao tiếp đặc biệt quan trọng chính là giao tiếp với con người. Làm thế nào để máy tính có thể giao tiếp được với con người, qua đó hấp thụ được kho tri thức của loài người thành của chúng, giả sử rằng chúng cũng được lập trình để có một nguyện vọng như vậy?
Những thành tựu này đạt được là do các nhà nghiên cứu TTNT nhận ra rằng “học” quan trọng hơn “biết”, khả năng đối chọi với tính bất định của thế giới thực quan trọng hơn khả năng tư duy theo một hệ thống logic làm sẵn. Nền tảng của TTNT hiện đại từ đó đã được chuyển từ logic cổ điển, chặt chẽ nhưng cứng nhắc, sang tính toán thống kê, lỏng lẻo hơn về mặt logic nhưng mềm dẻo, có tính ứng biến cao. Vấn đề học tập, cập nhật và chắt lọc tri thức từ dữ liệu thô, gọi vắn tắt là vấn đề
Học Máy, đang trở thành lĩnh vực trung tâm của TTNT. Ngành học máy được phát triển trên nền tảng của xác suất thống kê và khoa học máy tính, với mục tiêu là tạo ra các thuật toán tự học giúp cho máy tính định hình được khái niệm, liên hệ các ý nghĩa, tìm kiếm ra các quy luật trên cơ sở các nguồn dữ liệu thô và nhiễu.
Một trong những nguồn dữ liệu quan trọng bậc nhất cho máy tính, đồng thời cũng là dạng dữ liệu phức tạp và nhiều nhiễu bậc nhất, chính là ngôn ngữ tự nhiên của loài người. Khác với ngôn ngữ logic của máy, ngôn ngữ của người rất linh hoạt và giàu có, thường không tuân theo các quy luật logic cứng nhắc. Các từ vựng trong ngôn ngữ của chúng ta thường là đa nghĩa. Các từ được kếp hợp với nhau qua các cấu trúc câu đa dạng, làm tăng nên khả năng biểu cảm gấp bội. Các câu lại được kết hợp với nhau tạo ra các ngữ cảnh có thể làm tăng sự mơ hồ hoặc thay đổi hẳn nội dung.
Trong Jeopardy!, giải mã cho được cách chơi chữ trúc trắc và các gợi ý đầy cạm bẫy để “hiểu” được câu hỏi mới chỉ là trở ngại đầu tiên cho Watson. Để tìm ra câu trả lời, các kỹ sư của IBM còn phải tìm cách giúp Watson tìm kiếm và đánh giá sự tin cậy của các câu trả lời có thể, từ kho dữ liệu khổng lồ được nạp sẵn gồm có các loại từ điển, thư viện Wikipedia, và các tác phẩm văn học. Watson phải tận dụng tất cả khả năng tính toán của mình để tìm ra câu trả lời nhanh và chính xác, vượt qua kinh nghiệm dày dặn và kho tri thức sâu rộng của hai địch thủ sừng sỏ bằng da thịt.
Các kỹ sư của IBM đã phải
sử dụng hơn 100 phương pháp trong lĩnh vực học máy và xử lý ngôn ngữ để phân tích câu hỏi, tìm tòi nguồn ý của câu hỏi, tìm kiếm và đánh giá độ tin cậy các câu trả lời trong qua các kỹ thuật thống kê và học máy hiện đại.
3. Tương lai TTNT: Từ phép thử Turing đến quan điểm Dijkstra
Năm 1965, Herbert Simon dự đoán “trong vòng 20 năm nữa máy sẽ làm được bất kỳ việc gì người làm được”; năm 1967, Marvin Minsky cho rằng “trong vòng một thế hệ nữa, bài toán xây dựng ‘trí tuệ nhân tạo’ sẽ được xem như là giải quyết xong”. Ở thời điểm 2011 này, chúng ta biết các vị tiền bối ngành máy tính đã quá lạc quan. Vậy thì, từ những bài học gặt hái được qua chiến thắng lịch sử của Watson năm nay, chúng ta có thể nói gì về tương lai của ngành TTNT? Để thảo luận câu hỏi này, ta quay lại một chút với một câu hỏi cơ bản mà Alan Turing đặt ra năm 1950: làm thế nào để biết máy có “nghĩ” không?
Nguồn ảnh: http://xkcd.com/329/
Tư duy là một khái niệm khó nắm bắt, là thách thức quan trọng không chỉ đối với ngành khoa học máy tính mà còn thần kinh học và các ngành khoa học xã hội. Vì thế, để trả lời câu hỏi về tư duy của máy, Turing đã đề cử một phép thử mà ngày nay được gọi là
phép thử Turing: cho một ban giám khảo ngồi trong một không gian tách biệt, nói chuyện với máy đồng thời với số người thật. Nếu ban giám khảo không phân biệt được ai là máy ai là người thật thì kết luận là máy có “tư duy”. Ta phải tưởng tượng mình sống ở năm 1950 để cảm nhận sự khó khăn của việc xây dựng một cái “máy” vượt qua được phép thử Turing này.
Vậy mà đến năm 1965, chương trình máy tính
Eliza của Joseph Weizenbaum trường MIT đã có khả năng thuyết phục rất nhiều người là nó là người thật, dùng một
cái mẹo đơn giản của các nhà tâm lý học trong hội thoại với bệnh nhân: khi nào không hiểu thì lấy một từ khóa trong câu của bệnh nhân và bảo họ giải thích thêm. Ví dụ, bệnh nhân nói “hôm nay tớ buồn quá”, máy tính trả lời: “bạn nói thêm cho tớ về nỗi buồn của bạn đi!”. Chỉ đơn giản như thế, nhưng rất nhiều người đã không tin rằng Eliza là chương trình máy tính.
Nhiều người thậm chí đã “nói chuyện” nhiều giờ liền với Eliza, và khi xong thì báo cáo kết quả là “nhà điều trị tâm lý” Eliza đã có tác động tích cực đến tâm lý của họ. Hiện nay hàng năm vẫn có các kỳ thi dạng phép thử Turing cho các chương trình máy tính (
Giải thưởng Loebner là một ví dụ), và nhiều chương trình đã rất cận kề với điểm vượt qua phép thử Turing. Thậm chí, gần đây có cả chương trình tự động “kết bạn” trên các mạng xã hội, hội thoại với con người kiểu Eliza. Các nhà nghiên cứu đã thử cho bọn “bot” này
thâm nhập vào trung tâm của một nhóm lớn các bạn bè trong một mạng xã hội kiểu Twitter bằng cách này. Cho nên ai kết bạn linh tinh trên Facebook hay Twitter thì nên cẩn thận xem lại bạn mình có phải là … người không.
Vậy giờ đây, liệu đã có thể kết luận từ sự kiện Watson, con người đã có thể tạo ra những bộ máy thực sự có trí tuệ hay không? Noam Chomsky, một nhà ngôn ngữ học nổi tiếng,
thẳng thừng tuyên bố: “Với tôi, Watson chẳng hiểu gì cả. Nó chỉ là một cái máy ủi rất to thôi”. Marvin Minsky, một trong những người sáng lập nên ngành trí tuệ nhân tạo sau Turing, cũng có
thái độ tương tự: “Nếu như Watson chỉ là một dạng máy tính tìm kiếm và so trùng mẫu (pattern matching) … thì chẳng có gì ấn tượng cả. Với tôi, vẫn chưa máy tính nào có thể có cách cư xử theo lẽ thường tình như một đứa trẻ con 4, 5 tuổi”.
Thoạt nghe, những nhận xét như của Chomsky hay Minsky không phải không có cơ sở. Quả là ở chừng mực nào đó, cũng giống như Deep Blue, Watson vẫn chỉ là một máy tính làm rất tốt một việc: đó là việc tìm kiếm câu trả lời, một dạng câu trả lời chỉ thích hợp cho một cuộc chơi, cho dù là một cuộc chơi lắt léo như Jeopardy!. Watson vẫn phải dựa vào kho tri thức khổng lồ đã được tải xuống và sắp xếp vào hệ thống bộ nhớ rất “máy ủi” của mình bởi các kỹ sư bằng da bằng thịt của IBM.
Nếu cái kho tri thức ấy được Watson tự thu lượm và học hỏi được thì có thể sự đánh giá của chúng ta với trí thông minh của nó sẽ khác đi chăng? Nhưng nhìn nhận công bằng hơn, Watson thực sự là bước tiến vượt bậc so với Deep Blue. Trước khi có Watson, chúng ta đã không biết chắc có thể tạo ra được máy tính có khả năng xử lý ngôn ngữ tự nhiên của con người và thắng được con người trong một cuộc chơi nhưJeopardy!.
Có ai đó từng nói: hễ cứ khi máy tính đã làm được cái gì thì cái đó không được coi là thông minh nữa. Định kiến này sẽ luôn luôn đi kèm theo bất kỳ thành tựu công nghệ nào của loài người, cho dù chúng có kỳ vĩ đến đâu. Các tác giả bài này chọn cách nhìn cùng hướng với cố giáo sư Edsger Dijkstra, người thắng giải Turing năm 1972. Dijkstra từng nói: “
hỏi máy tính có biết nghĩ hay không thì cũng chẳng hay ho gì hơn hỏi tàu ngầm có biết bơi không”. Quan điểm của Dijkstra cũng chính là xu hướng phát triển của khoa học và công nghệ TTNT hiện nay mà đại diện mới nhất là Watson:
hướng chức năng. Khi công nghệ Q&A (hỏi đáp) của Watson có thể dùng để
giúp bệnh nhân và bác sĩ chẩn đoán bệnh bằng cách tìm và trả lời các câu hỏi lâm sàng hóc búa, khi công nghệ Q&A phát triển đến mức các trung tâm giải đáp thắc mắc kỹ thuật
chỉ còn toàn máy, khi công nghệ Q&A phát triển đến mức ta có thể đặt câu hỏi trực tiếp cho Google mà không cần nghĩ xem từ khóa đúng là gì … thì việc Watson có biết “nghĩ” thật hay không có lẽ không còn là câu hỏi cần thiết nữa.
Khoa học gia ngành Tâm Lý Daniel Gilbert
từng nói rằng, mỗi nhà tâm lý học sẽ phải một lần trong đời viết cái câu sau:
“Con người là loài duy nhất có khả năng _________”
Cho đến gần cuối thế kỷ 20, điền “chơi cờ vua” vào khoảng trống hẳn là đa số nhân loại đồng ý. Đến nay điền “làm Toán” vào được không? Không! Hệ thống phần mềm
WolframAlpha có khả năng làm Toán tốt hơn tuyệt đại đa số nhân loại: nó có thể tính tích phân bất định và xác định, tính tổng các chuỗi hình thức, và mật độ dân số Việt Nam, trong vòng tích tắc, với câu hỏi là ngôn ngữ tự nhiên.
Watson vừa mới loại bỏ thêm một việc nữa mà chỉ con người mới có thể làm được. Xu hướng chức năng theo quan điểm của Dijkstra sẽ là xu hướng thượng phong cho tương lai ngành TTNT.
Có thể đến một lúc nào đó chúng ta sẽ phải quay lại với vấn đề mà Turing đã lẩn tránh khi ông đưa ra phép thử Turing.
Trí thông minh là gì?
Cụ thể hơn: thế nào là trí thông minh của máy?
Tương tự, thế nào là tình cảm của máy?
Thế nào là lẽ thường?
Còn, nếu bạn không đồng ý với quan điểm Dijkstra và muốn “hạ gục” Watson thì chỉ cần hỏi: “Này, Watson, tại sao vợ tớ giận tớ?”