Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.
Mục lục
Diễn giải
Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm:- Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
- Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
- Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.
- Triển khai (Deployment).
Các phương pháp khai thác dữ liệu
- Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước.
- Hồi qui (Regression): Discovery of a prediction learning function, which maps a data item to a real-value prediction variable.
- Phân nhóm (Clustering): A common descriptive task in which one seeks to identify a finite set of categories or clusters to describe the data.
- Tổng hợp (Summarization): An additional descriptive task that involves methods for finding a compact description for a set (or subset) of data.
- Mô hình ràng buộc (Dependency modeling): Finding a local model that describes significant dependencies between variables or between the values of a feature in a data set or in a part of a data set.
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Discovering the most significant changes in the data set.
Các vấn đề về tính riêng tư
Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai thác dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức.Khai thác dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao. 5
Có nhiều cách sử dụng hợp lý với khai thác dữ liệu. Ví dụ, một CSDL các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong một phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.
Về cơ bản, khai thác dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các cá nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức.
Các lĩnh vực ứng dụng
Các lĩnh vực hiện tại có ứng dụng Khai thác dữ liệu bao gồm:- Thiên văn học
- Tin sinh học
- Bào chế thuốc
- Thương mại điện tử
- Phát hiện lừa đảo
- Quảng cáo
- Marketing
- Quản lý quan hệ khách hàng
- Chăm sóc sức khỏe
- Viễn thông
- Thể thao, giải trí
- Đầu tư
- Máy tìm kiếm (web)
Những ứng dụng đáng chú ý của khai thác dữ liệu
- Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger của
Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng
9, Mohamed Atta, và ba kẻ tấn công ngày 11 tháng 9 khác là các thành
viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm
trước cuộc tấn công.
- Xem tin tức Wikinews tại: Wikinews: U.S. Army intelligence detection of 9/11 terrorists before attack
- Xem bài viết về đơn vị Able Danger.
Xem thêm
- Trí tuệ nhân tạo
- Mạng nơ-ron nhân tạo
- Business intelligence
- Business performance management
- Cơ sở dữ liệu
- Data stream mining
- Kho dữ liệu (Data warehouse)
- Cây quyết định
- Thống kê mô tả (descriptive statistics)
- Khoa học khám phá (Discovery Science)
- Kho tài liệu (Document warehouse)
- Logic mờ (Fuzzy logic)
- Kiểm nghiệm giả thuyết (Hypothesis testing)
- Java Data Mining
- Linear discriminant analysis
- Logit (in reference to logistic regression)
- Loyalty card
- Học máy
- Láng giềng gần nhất (nhận dạng mẫu)
- Nhận dạng mẫu
- Principal components analysis
- Phân tích hồi qui (Regression analysis)
- Khai thác dữ liệu quan hệ (Relational data mining)
- Thống kê
- Khai thác văn bản (Text mining)
- Hướng dẫn sử dụng mạng nơ ron trong các ứng dụng thực tế trong đó có minh họa phân loại ảnh khuôn mặt, ảnh người đi bộ, ảnh xe hơi, dự báo chứng khoán và một số ví dụ khác
Tham khảo
Trong bài:Chú giải 1: W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.
Chú giải 2: D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X
Chú giải 3: Fred Schwed, Jr, Where Are the Customers' Yachts? ISBN 0471119792 (1940).
Chú giải 4: T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer, tháng 10 năm 2003, pages 18–25.
Chú giải 5: K. A. Taipale, Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data, Center for Advanced Studies in Science and Technology Policy. 5 Colum. Sci. & Tech. L. Rev. 2 (tháng 12 năm 2003).
Chú giải 6: Eddie Reed, Jing Jie Yu, Antony Davies, et al., Clear Cell Tumors Have Higher mRNA Levels of ERCC1 and XPB than Other Types of Epithelial Ovarian Cancer, Clinical Cancer Research, 2003.
Xem thêm
- Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining Association Rules between Sets of Items in Large Databases (1993). Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, months 26–28, pp. 207–216.
- Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules (1994). Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), month 12–15, pp. 487–499.
- Jaiwei Han and Micheline Kamber, Data Mining: Concepts and Techniques (2001), ISBN 1-55860-489-8
- Ruby Kennedy et al., Solving Data Mining Problems Through Pattern Recognition (1998), ISBN 0-13-095083-1
- O. Maimon and M. Last, Knowledge Discovery and Data Mining – The Info-Fuzzy Network (IFN) Methodology, Kluwer Academic Publishers, Massive Computing Series, 2000.
- Hari Mailvaganam, Future of Data Mining, (tháng 12 năm 2004)
- Sholom Weiss and Nitin Indurkhya, Predictive Data Mining (1998), ISBN 1-55860-403-0
- Ian Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (2000), ISBN 1-55860-552-5
- Yike Guo and Robert Grossman, editors, "High Performance Data Mining: Scaling Algorithms, Applications and Systems", Kluwer Academic Publishers, 1999.
Các liên kết ngoài
- Data Mining Software Guide
- Eruditionhome Directory site for data mining and web mining resources
- Limited introduction to Data Mining (TwoCrows.com)
- thearling.com Comprehensive data mining white papers and tutorials
- SQLServerDataMining.com Information and interactive demos on SQL Server 2005 Data Mining
- CRM Today - Data Mining White papers, articles, presentations and academic papers on data mining
- Data Mining whitepapers, webcasts and case studies
- Data Mining and Data Warehousing Guide to Data Mining
No comments:
Post a Comment