Highlight

Những điều thú vị khi dùng Trí tuệ nhân tạo của Viettel

Những người dùng Internet tại Việt Nam thường lấy “chị Google” ra để… giải trí. Khi “chị” đọc văn bản hay chỉ đường cho người tham gia gi...

Thursday, February 18, 2016

Máy truy tìm dữ liệu theo Bách khoa toàn thư mở Wikipedia

Máy truy tìm dữ liệu trực tuyến hay máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên các từ khóa (keyword) được người dùng gõ vào và trả về một danh mục của các trang Web có chứa từ khóa mà nó tìm được.
Từ khóa được hiểu như là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá (set of keywords).
Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả các trang mà nó có thể tìm gặp trên Internet.
Ngày nay, với số lượng các trang Web lên đến hàng tỉ, nên việc tìm ra số trang có chứa nội dụng đòi hỏi của từ khoá có thể lên đến hàng triệu trang. Do đó, việc hiển thị các trang tìm thấy theo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùng cũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người dùng máy.
Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet, hoặc máy tính cá nhân. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế. Máy tìm sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả. Máy tìm thường được hiểu là máy tìm những thông tin công khai trên mạng, nếu không có những khả năng cao hơn. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá nhân tìm thông tin trên máy tính cá nhân, và máy tìm di động.
Một số máy tìm còn khai thác thông tin trong các nhóm tin, các cơ sở dữ liệu lớn, hay trong các hệ thống thư mục mở như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các thuật toán. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau.

Các thuật ngữ liên quan

Các thuật toán hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay đơn giản hơn là phân hạng.
Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).

Hoạt động phân hạng các trang Web

Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.
Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.
Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:

Những tiêu chí quan trọng dùng trong phân hạng

Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:
  1. Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự đánh giá của các chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc phân hạng một trang Web.
  2. Thẻ meta và câu lệnh title:
    Theo ngôn ngữ HTML, thì thẻ meta là các câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta có dạng:
    <META (các thông số cho câu lệnh meta)>
    Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều đến từ khoá. Hậu quả là một trang Web có thể được phân hạng cao hơn nếu các phần hay toàn bộ từ khoá có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ meta, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ meta có nhiều hiệu lực cho việc phân hạng là:
    • <META name="description" content="(miêu tả ngắn nội dung trang Web)">
    • <META name="keywords" content="(danh sách từ khoá)">
      Với lý do tương tự, nếu câu lệnh
    • <title>(tựa đề của trang Web)</title> không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.
  3. Ngôn ngữ: Nếu một người dùng đang nối vào Internet bằng một máy tính sử dụng tiếng Pháp thì việc hiển thị các trang Web có cùng ngôn ngữ Pháp với máy tính đó rõ ràng là hiệu quả hơn cho người đó. Do đó, yếu tố ngôn ngữ của trang Web cũng được chú ý trong phân hạng.
  4. Số lượng liên liên kết ngoài: Theo sự đánh giá của nhiều chuyên gia phát triển máy truy tìm thì nếu một trang Web được nhiều nơi khác đề cập tới hay mở liên kết tới địa chỉ của nó thì rõ ràng giá trị của trang Web này cao hơn là các trang Web cùng kiểu nhưng lại không có hay ít được liên kết hay đề cập từ các trang khác. Như vậy, các trang Web nào được nhiều trang Web khác liên kết tới (hay đề cập tới) thì chất lượng của nó có thể cao hơn và được phân hạng cao hơn.

Kỹ thuật nâng cao thứ hạng cho một trang Web

Việc nâng cao thứ hạng của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:
  • Các cơ sở thương mại hay các cơ quan có hoạt động này muốn hoà nhập vào thị trường toàn cầu. Họ có các trang Web, một trong những biện pháp quan trọng là làm sao các trang Web này đến được người dùng Internet. Ngoài việc đăng quảng cáo trên trang phổ biến thì việc làm sao cho địa chỉ trang Web của họ được hiển thị ngay từ trang trả về đầu tiên cũng là một biện pháp quan trọng ảnh hưởng tới việc tiếp thị.
  • Các trang Web truyền bá thông tin hay tuyên truyền những đề tài riêng cũng muốn đem thông tin của mình phổ biến đến được người dùng ở khắp nơi nên cũng mong muốn nâng cao thứ hạng trang Web của mình.
Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:
  • Sự ra đời của các công ty tư vấn về nâng cao thứ hạng cho trang Web: các công ty này sẽ nhận làm các dịch vụ SEO cho thân chủ để đưa thứ hạng các trang đó lên trong danh sách hiển thị trước tiên của các máy truy tìm.
  • Các trang Web giả dụng (page cloaking): Người thiết kế các trang này sẽ tìm cách cung cấp một nội dung có thể nhận sự phân hạng cao trong các máy truy tìm trong khi thực tế nếu một người dùng Internet truy cập đến địa chỉ này (qua trang trả về của máy truy tìm hay qua việc gõ thẳng địa chỉ vào máy truy cập) thì trang đó hiển thị một nội dung hoàn toàn khác với sự đánh giá của máy truy cập. Hành động này xuất phát từ ý muốn tăng cường khả năng tiếp thị của một số trang Web.
Kỹ thuật đánh lừa các máy truy tìm như trên không quá phức tạp. Một ví dụ là chỉ việc thêm vào phần nội dung các thẻ meta và câu lệnh title thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh body) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ meta hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xảy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.
  • Tính tạm thời của SEO: Phương pháp phân hạng các trang Web của các máy truy tìm thường thay đổi theo tình hình phát triển của Internet và của sự thay đổi nội dung của các trang Web. Do đó, một trang Web cố định chỉ có thể được phân hạng cao trong một thời hạn cố định mà thôi. Để một trang Web tiếp tục được giữ thứ hạng cao thì nội dung của nó (hay ít nhất nội dung các thẻ meta) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ các địa chỉ Web khác tới và đây cũng là chỗ cho các nhà chuyên nghiệp về SEO phục vụ.
  • Bảo trợ quảng cáo cho máy truy tìm: Bản thân các máy truy tìm cũng có thể là các cơ quan phục vụ quảng cáo do đó một trong những cách tốt để tăng hiệu quả tiếp thị là tham gia các dịch vụ quảng cáo ngay trên các máy truy tìm.
  • Phá hoại máy truy tìm: Có thể do nhiều nguyên do phức tạp, các tay tin tặc có thể tổ chức tấn công vào máy truy tìm nhất là các máy được ưa chuộng. Ngày 26 tháng 7 năm 2004, hệ thống máy truy tìm lớn nhất hiện tại, Google, đã bị tấn công bởi virus máy tính myDoom làm cho hệ thống này ngưng hoạt động trong khoảng 4 tiếng.

Phân loại máy truy tìm

Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ. Có hai cách chính phân loại máy truy tìm.

Theo phương thức hoạt động

  • Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là http://www.google.com
Giao diện của máy metacrawler
  • Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thể lợi dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là lợi dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay "ảo"). Điển hình loại này là MetaCrawler.
  • Kiểu thư mục đối tượng (subject directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là http://www.yahoo.com
  • Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như http://lii.org, http://www.academicinfo.nethttp://infomine.ucr.edu thuộc kiểu này.
  • Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau. Chẳng hạn như http://www.yahoo.com không còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng.

Theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:
  • Kiếm địa chỉ trang Web
  • Kiếm địa chỉ thư điện tử
  • Kiếm thông tin riêng về một người
  • Kiếm thông tin về một tổ chức
  • Kiếm việc làm
  • Kiếm bản đồ...

Phép toán và hỗ trợ của máy truy tìm

Dùng Google để tìm lại nguồn thơ khi chỉ nhớ một câu
Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Ở đây chỉ nêu ra các phép toán được hỗ trợ bởi hầu hết các máy truy tìm.
  • Dùng phép "+": Để tìm các trang có mặt tất cả các chữ của từ khóa mà không theo thứ tự nào hết thì viết nối các chữ này với nhau bằng dấu +. Ví dụ: Tìm trang nói về cách thức viết Linux scripts có thể dùng bộ từ khóa
    +Linux +script +tutor
  • Dùng phép "-": Trong số các trang Web tìm được do quy định của từ khóa thì máy truy tìm sẽ loại bỏ các trang mà nội dung của chúng có chứa chữ (hay cụm từ) trong ngoặc kép đứng ngay sau dấu trừ. Ví dụ: Khi tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe hay các trang nói về hai kiểu xe Prius (của Toyota) và kiểu xe Insight (của Honda) lọt vào danh cách truy tìm thì có thể thử từ khóa
    +car +hibrid -sale -Prius -Insight
  • Dùng dấu ngoặc kép " ": Khi muốn chỉ thị máy truy tìm nguyên văn của cụm từ, có thể dùng dấu ngoặc kép. Ví dụ: Để tìm lại nguyên tác và nội dung bài thơ có câu nước non nặng một lời thề thì có thể thử dùng từ khoá với ngoặc kép
    "Nước non nặng một lời thề"
  • Dùng các phép toán của đại số Bool: Hiện tại, nhiều máy truy tìm hỗ trợ thêm các phép toán như là OR, AND và NOT. Khi dùng thì tên của các phép toán này bắt buộc phải viết chữ in hoa. Phép toán Bool đòi hỏi điền vào đúng vị trí quy định một từ (hay một cụm từ trong ngoặc kép) giữ vai trò của toán tử. Ngoài ra, đa số máy truy tìm chỉ hoạt động tốt trong một số lượng giới hạn các phép toán Bool cho một bộ từ khoá. Lời khuyên chung là không nên dùng quá 6 phép toán Bool cho cùng một bộ từ khoá và không phải máy truy tìm nào cũng hỗ trợ đầy đủ các phép toán AND, OR hay NOT
    • OR: Có cú pháp là (Toán tử 1) OR (Toán tử 2). Lệnh này cho phép tìm những trang Web nào có chứa một trong các toán tử của phép toán OR của bộ từ khoá. Ví dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng Việt và tiếng nước ngoài thì có thể dùng bộ từ khoá
      "Nguyễn Trãi" OR "Nguyen Trai"
      Các máy truy tìm có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot và Gigablast.
    • AND: Có cú pháp (Toán tử 1) AND (Toán tử 2). Phép toán AND nhằm yêu cầu máy truy tìm kiếm các trang có sự hiện diện của tất cả các toán tử. Ví dụ nanotechology AND health
      sẽ giúp truy tìm các trang có mặt đồng thời hai chữ health và chữ nanotechnology
      Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có Google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào máy truy tìm không có chức năng của đại số Bool.
      Các trang hỗ trợ phép toán AND là: AltaVista, AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo và Gigablast.
    • NOT: Phép này hoàn toàn tương tự như cách dùng dấu -. Nghĩa là, sự truy tìm sẽ loại bỏ những trang mà nội dung có chứa toán tử đứng ngay sau phép toán NOT. Tuy nhiên trong nhiều máy truy tìm có hỗ trợ thì phép này cũng chỉ được dùng có một lần cho một bộ từ khoá. Thí dụ để tìm tài liệu hướng dẫn về ngôn ngữ lập trình C/C++ có thể thử dùng trên Altavista
      "C/C++ tutor" NOT book
      Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast.
  • Dùng phép NEAR: Dùng để truy tìm những trang Web mà nội dung của chúng có các thành tố của từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghĩa hay một lời phát biểu mà bạn không nhớ hết được. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:
    "Ong non" NEAR "Dê cỏn"
  • Dùng dấu ngoặc đơn () để chẻ nhánh. Dùng ngoặc đơn cho phép tìm nhiều kết hợp phức tạp. Ví dụ để truy tìm tài liệu về cách tạo ra CD ROM có khả năng tự khởi động có thể thử từ khoá
    bootable AND (CD OR CDROM OR CD-ROM) AND (howto OR instruction)
    Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light
  • Lưu ý:
    1. Trong mọi trường hợp thì từ khoá sai chính tả sẽ không thể có hiệu quả.
    2. Cách tốt nhất là dùng chữ in hoa cho các phép toán.
    3. Các trang tìm kiếm của Hotbot hay MSN thì bạn phải chuyển sang chọn chức năng "Boolean phrase" khi dùng các phép toán Boolean.

Từ khoá mặc định

Nhiều máy truy tìm còn hỗ trợ thêm các từ khoá mặc định. Khi dùng các từ khoá mặc định như một thành phần của bộ từ khoá thì các trang Web được trả về sẽ thoả mãn các đặc tính chuyên biệt hoá theo ý nghĩa mà các từ khoá mặc định này biểu tượng. Các hỗ trợ này cho phép kiểm soát được các loại trang nào muốn truy tìm.
Các từ khoá mặc định kết thúc bằng dấu hai chấm : và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa.
  • Các từ khoá mặc định giới hạn máy truy tìm trả về các trang nằm trong một tên miền, hay một miền con. Tuỳ theo máy truy tìm mà các từ khoá mặc định được sử dụng.
    1. Altavista hỗ trợ chức năng này bằng từ khoá host:. Ví dụ, host:mars.jpl.nasa.gov mars saturn chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ "mars" và chữ "saturn".
    2. Excite, Google (Netscape, Yahoo) hỗ trợ chức năng này bằng từ khoá site:, khi kết hợp với các lệnh khác có thể tìm theo cách chuyên biệt. Ví dụ, "carbon nanotech" -host:www.technologyreview.com cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com
    3. Inktomi (HotBot, iWon, LookSmart) hỗ trợ chức năng này bằng từ khoá domain:. Ví dụ, để tìm các trang có đuôi là ".edu" (thường là trang Web của các đại học) về đề tài "heart transplan", có thể dùng bộ từ khoá "heart transplan" +host:edu để tìm các trang có đuôi gốc là.edu mang đề tài này.
    4. AllTheWeb hỗ trợ các từ khoá domain, url, site: cho chức năng này. Ví dụ, để tìm các trang về "deutch" từ các trang trong nước Đức có thể dùng deutch domain:.de
  • Các từ khoá mặc định dùng để tìm trang có tựa đề chứa một từ (hay cụm từ) đặc biệt:
    1. AltaVista, AllTheWeb, Inktomi (MSN và HotBot) dùng từ khoá title:. Ví dụ, title: "Mars Landing" sẽ giúp truy tìm các trang có đề tựa về Hoả Tinh.
    2. Google và Teoma hỗ trợ các từ khoá intitle:allintitle: ("allintitle:" sẽ ảnh hưởng đến tất cả các chữ đứng sau dấu :).
  • Các từ khoá dùng để tìm các địa chỉ Web nào có chứa từ (hay cụm từ) của bộ từ khoá:
    1. Google hỗ trợ từ khoá inurl:allinurl:.
      • Muốn tìm địa chỉ các trang Web có một chữ đặc biệt thì dùng inurl. Ví dụ, inurl:nasa sẽ giúp tìm tất cả các địa chỉ Web nào có chứa chữ "nasa".
      • Nếu cần truy tìm một địa chỉ có nhiều hơn một chữ thì dùng allinurl. Ví dụ, allinurl:vietnam thetholucbat sẽ giúp tìm tất cả các trang nào mà nội dung địa chỉ của nó chứa chữ "vietnam" hay là chữ "thetholucbat".
    2. Inktomi, AOL, GoTo, HotBot cung cấp từ khoá originurl: cho việc này.
    3. Yahoo thì dùng từ khoá u:
    4. Exite dùng url:
  • Các từ khoá mặc định giúp tìm các trang có cài đặt các liên kết tới địa chỉ trang được ghi trong từ khoá:
    1. Google, Yahoo sẽ cung cấp từ khoá link:. Tuy nhiên, Yahoo yêu cầu địa chỉ trong từ khoá phải có đủ tiếp đầu ngữ http:// thì mới hoạt động hữu hiệu. Ví dụ, bộ từ khoá link:vi.wikipedia.org sẽ giúp truy ra tất cả các trang Web nào có liên kết tới trang Bách khoa toàn thư tiếng Việt này.
    2. MSN hỗ trợ chức năng này bằng từ khoá linkdomain:
  • Ngoài ra, để truy tìm các loại tệp có định dạng (format) đặc biệt thì có thể dùng từ khoá filetype:(đuôi của tập tin):
    1. Google: sẽ hỗ trợ truy tìm các kiểu tệp: PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt) và Rich Text Format (.rtf) cũng như PostScript (.ps), Text (.txt), HTML (.htm hay.html), WordPerfect (.wpd) và các đuôi khác... Ví dụ: laser filetype:pdf sẽ giúp tìm các trang là các tập tin dạng .pdf (.pdf là loại tập tin được dùng trong cá hồ sơ văn bản của phần mềm Adobe Arcobat).
    2. Yahoo cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml) và tập tin văn bản dạng (.txt).
    3. MSN chỉ hỗ trợ chuyên tìm các loại tệp: HTML, PDF, PowerPoint (.pps hay.ppt), các dạng của Word, hay Excel.
Lưu ý: Đối với các máy truy tìm thì các tệp có đuôi.htm khác với các tệp có đuôi.html. Do đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần, một riêng cho htm và một cho html.

Kí tự thay thế và kí tự "~" trong bộ từ khoá

Kí tự thay thế (wildcard character) được hiểu là một kí tự có thể dùng để thay thế, hay đại diện cho một tập hợp con của tập các kí tự chưa được xác định hoàn toàn. Một cách đơn giản hơn, kí tự thay thế là kí tự được dùng để đại diện cho một kí tự, hay một chuỗi kí tự trong một từ khoá, mệnh đề, câu hay dãy các kí tự. Nhiều máy truy tìm hỗ trợ cho việc sử dụng hai loại kí tự thay thế. Đó là dấu sao * và dấu chấm hỏi ?
  • Dấu sao *: dấu này sẽ thay thế cho một dãy bất kì các kí tự (chữ, số, hay dấu). Ví dụ, trong từ khoá có t*ng thì chữ t*ng có thể hiểu ngầm là tướng, từng, tuồng, ttamxng,...
    Cần lưu ý sự khác biệt về ý nghĩa đối với kí tự thay thế * dùng trong các hệ điều hành như là DOS, LINUX, Windows,... Theo cách hiểu của các hệ thống này thì dấu * hoàn toàn không bị lệ thuộc vào biên giới của một từ. Trong khi đó, dấu * dùng trong máy truy tìm sẽ được hạn chế trong biên giới của một từ. Ví dụ, từ khoá My* dùng trong các công cụ tìm kiếm của các hệ điều hành kiểu Windows thì nó có thể là My Downloads, My Documents, My Yahoo!, my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere,.... Trong khi đó my* trong các máy truy tìm chỉ giới hạn trong các chữ) lập thành bắt đầu với my. Như vậy, trong ví dụ trên thì My Downloads, My Documents, My Yahoo! sẽ không được máy truy tìm xem xét mà chỉ có my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere là hợp lệ mà thôi.
    AltaVista, Inktomi (iWon), Northern Light, Gigablast, Google, Yahoo, MSN,... đều hỗ trợ cho cách dùng dấu * này.
  • Dấu chấm hỏi ?: dùng thay cho một kí tự duy nhất nào đó. Ví dụ, ph?ng có thể là phong, phặng, ph@ng, ph_ng, ph-ng,... nhưng không thể là phượng, ph ng, phug, phăang.
    AOL Search, Inktomi (iWon) là các máy truy tìm có hỗ trợ dấu ? này.
Dấu ngã ~: Đặc biệt trong Google có một cách để tìm không những các trang có chứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa (synonym) Anh ngữ với từ khoá. Ví dụ, ~food facts sẽ giúp truy tìm các dữ liệu có chữ "food facts" và các chữ tương đương như "nutrition facts",... Sự truy tìm theo hỗ trợ này đặc biệt hữu dụng trong trường hợp các tài liệu cần tìm quá hiếm hoi.

Chế độ cao cấp của máy truy tìm

Chế độ nâng cao của máy truy tìm AskJeeves (www.ask.com)
Ngoài chế độ tìm kiếm thông thường hầu hết các máy truy tìm đều hỗ trợ chức năng nâng cao mà dòng liên kết của nó thường viết bởi cụm từ "Advanced search", hay đơn giản là "Advanced". Trong chế độ này thì sự tìm kiếm được hướng dẫn chi tiết hơn. Đặc điểm chung của các chế độ nâng cao là:
  • Giao diện được thêm vào nhiều khung chữ hay ô trống (text box) có dòng hướng dẫn để tiện người dùng điền vào. Không nhất thiết phải điền hết tất cả các khung chữ nhưng các khung này được điền một cách đúng cách và nhiều chi tiết thì càng giúp cho máy truy tìm làm việc hiệu quả hơn.
  • Đa số các máy truy tìm cho phép lọc lựa (filter) lại các thông tin như là:
    • Lựa chọn ngôn ngữ.Cho đến nay có một số máy truy tìm sau cho phép tìm riêng các trang Việt ngữ:
Google , Yahoo Baamboo
    • Lựa chọn ngày tháng của trang Web.
    • Lựa chọn các kiểu tệp (file type).
    • Lọc bỏ các nội dung dành riêng cho người lớn...
Có thể sử dụng các phép toán đã nêu trong bài 2 để nâng cao phép truy tìm. Tuy nhiên, người dùng nên cẩn thận vì có thể các kết quả sẽ chịu ảnh hưởng của nhiều điều kiện khác.

Sử dụng các chức năng đặc biệt của máy truy tìm

Các máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt
  • Tìm thêm dữ liệu theo liên hệ (related search): Sau khi tìm kiếm, máy truy tìm có thể giúp đào sâu sự truy tìm bằng cách cung cấp các bộ từ khoá chi tiết hơn dưới dạng các dòng liên kết (link). Các liên kết này thu nhỏ thị trường tìm kiếm (nếu số trang tìm theo từ khoá quá lớn). Thực ra, nếu cách chọn từ khoá đủ tập trung và khéo thì sẽ không phải mượn đến chức năng này. Ví dụ, như tìm các trang viết về sao Hoả mà dùng từ khoá mars thì số lượng trang tìm ra sẽ vô cùng lớn. Do đó, có thể bấm thêm vào các chữ liên hệ để máy truy tìm thu nhỏ thị trường tìm kiếm lại.
    Những trang có chức năng để tìm dữ liệu theo liên hệ là: AltaVista (Related Searches),Ask.com AllTheWeb (Narrow your search), Excite (Refine Your Results), HotBot, Lycos, MSN, Yahoo (also try).
  • Nhóm gọn (cluster): trong lúc tìm kiếm nếu máy truy tìm cho rằng các trang tìm ra có thể ở chung một trang nguồn thì nó chỉ chọn ra một trang đại diện, còn các trang khác sẽ được xếp gọn vào và người dùng có thể khai triển rộng ra thành nhiều trang nếu muốn. Như vậy, sự tìm kiếm sẽ dễ hơn và ít bị nhiễu loạn thông tin của cùng một trang.
    Những trang có chức năng này là: AltaVista (Additional relevant pages from this site), AllTheWeb (more hits from), Excite, Google (More results from), HotBot, MSN, Northern Light.
  • Trang tương tự và trang có chính tả gần giống: Trong một số trường hợp thì chức năng tìm các trang tương tự như các trang mà máy truy tìm cho rằng có thể hữu dụng. Để dùng chức năng này chỉ việc bấm vào liên kết tương ứng. Riêng trong Google thì còn có link gợi ý thêm hay sửa chính tả cho việc truy tìm bằng chữ "Did you mean..."
    Các trang có chức năng tìm trang Web tương tự là: AltaVista (similar pages, related pages), AOL Search (Show me more like this), Google (did you mean, similar pages).
Các chức năng đặc biệt của máy truy tìm Google
  • Trang có từ nối dài (stemming): Đây là khả năng của một số máy truy tìm cho phép tìm những trang có những chữ mở rộng của chữ trong từ khoá. Ví dụ, thay vì chỉ tìm "tutor" thì tìm luôn các trang có "tutors, tutorial, e-tutor,..."
    AOL Search có chức năng này mặc định, Direct Hit, HotBot (Enable Word Stemming).
  • Chức năng tồn trữ (cached) của Google: Có nhiều trường hợp trang Web đã bị xoá không thể hiển thị được nữa nhưng thông tin của nó trong cơ sở dữ liệu của máy truy tìm vẫn còn mà người dùng có thể cần đến. Trong thời gian các tin tức này chưa bị xoá khỏi cơ sở dữ liệu thì vẫn có thể đọc được nó nhờ vào chức năng đặc biệt này của Google.
  • Chuyển dịch (translation): Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng mà người dùng đang có. Thường thì chỉ có dịch được ra các thứ tiếng thông dụng như Anh, Pháp, Đức, hay Tây Ban Nha và sự chuyển dịch này cũng không chính xác hoàn toàn. Dù vậy, người dùng có thể nắm được một phần thông tin có thể dịch ra.
    Các trang có chức năng chuyển dịch là: AltaVista (Translate), Google(Translate this page).

Máy tìm hoạt động như thế nào

Một máy tìm hoạt động theo các bước cơ bản sau
  1. Lọ mọ
    1. Tìm kiếm theo chiều sâu (DFS)
    2. Tìm kiếm theo chiều rộng (BFS)
  2. Lập chỉ mục
  3. Tìm kiếm
Các máy tìm mạng thực hiện công việc lưu giữ thông tin về một số lượng khổng lồ các trang web nó tìm thấy trên WWW. Những trang web này được lấy về bằng các con lọ mọ (còn gọi là nhện web) bằng cách lần theo các siêu liên kết. Nội dung các trang web sau đó được phân tích để xác định xem trang web đó nên xuất hiện trong các yêu cầu tìm kiếm với tổ hợp từ khóa nào (ví dụ, những từ thu được từ tiêu đề, nội dung hoặc các trường đặc biệt gọi là meta tags).

Liên kết ngoài đến một số công cụ truy tìm thông dụng hiện nay

Để cho tiện tra cứu các liên kết sẽ được xếp theo chủ đề tìm kiếm

Dữ liệu đặc biệt

Nhiều thông tin được cất giữ riêng trong các cơ sở dữ liệu mà chỉ có thể tìm ra khi vào các trang riêng biệt để tìm chúng. Một vài trang chứa cơ sở dữ liệu như vậy là:

Tài liệu tham khảo

Thư viện Web

Trích dẫn

Tin tức

Yahoo news
Google news
Vào thẳng các trang của các hãng thông tấn để truy tìm tin tức mới như là cnet tech news, BBC news, US NEWS, CNN, AP, AFP, NBC, CBS, Fox,...

Người, địa chỉ, số điện thoại

  • Truy tìm thông tin về các nhân vật nổi tiếng:
Infoplease
Biography on A&E
  • Các nhân vật nổi tiếng nhưng đã chết:
Lives, the Biography Resource
  • Truy tìm người thường hay các thông tin về cá nhân:
Hãy thử gõ tên đúng chính tả của ngưòi cần tìm trên www.google.com
Yahoo People Search
freeality.com Reverse Directory Lookup
InteliUS

Đọc thêm

Tham khảo

Liên kết ngoài

1 comment: