Professional Documents
Culture Documents
ĐỒ ÁN CƠ SỞ
TÓM TẮT
Khai phá các mẫu thường xuyên là bài toán quan trọng có nhiều khả năng ứng dụng v
ào thực tiễn. Các ứng dụng trong thực tiễn rất đa dạng và phong phú nên
phương pháp khai phá tập mục thường xuyên bị giới hạn bởi cấu trúc dữ liệu dạng tập hợp k
hông phản ánh được hết bản chất của dữ liệu chẳng hạn như cấu trúc thành phần hóa học củ
a các viên thuốc tân dược, cấu trúc gen tế bào, cấu trúc protein động vật và nhiều cấu trúc k
hác. Các cấu trúc dữ liệu này hầu hết đều có thể biểu diễn dưới một dạng dữ liệu có cấu trúc
đã biết như đồ thị, cây hoặc lattice.
Do vậy, các nghiên cứu về khai phá đồ thị con thường xuyên có ý nghĩa rất lớn đặc biệt hữu
ích trong lĩnh vực y tế.
MỤC TIÊU -
- Giới thiệu về thuật toán MaxAFP để khai phá dữ liệu các mẫu xuất hiện với tần số lập lại n
hiều tối đa, trong cơ chế xác nhập thì có 2 loại
+ Exact Matching (Xác nhập đồ thị chính xác)
+ Inexact Matching (Xác nhập đồ thị không chính xác)
Trong Bài tìm hiểu này em
xin dùng cơ chế Inexact Matching để dùng làm hàm hỗ trợ giúp tìm ra các đồ thị con với tần
số lập lại nhiều lần nhất trên một đồ thị đơn(Single Graph).
Inexact Matching sử dụng một hàm để đo được sự tương đồng giữa hai đồ thị(đồ thị con tập
con, đồ thị cha-đầu vào) với hàm Fsim, ..
Kế tiếp, chúng ta sẽ mở rộng thêm về Chiến lược để xác định được các mẫu xuất hiệ
n với các ngưỡng cho phép khác nhau, với các nhãn cũng như các mô hình, cấu trúc của
mẫu tìm được.
Cuối cùng thì ta làm 1 ví dụ nhỏ để thấy được các mẫu được tìm thấy với Thuật toán kha
i phá mẫu xuất hiện với tần số nhiều nhất ban đầu(MaxAFP).
Từ khóa : Khai phá dữ liệu, Xác nhập đồ thị đơn
không chính xác, Đồ thị con xuất hiện tần số cao nhất, Khai phá dữ liệu với đồ thị con, ..
Nội dung của bài BÁO CÁO và CÁC VẤN ĐỀ CẦN GIẢI QUYẾT:
1. Tìm hiểu về các phương pháp khai phá dữ liệu đồ thị đơn với xác nhập không tương
đồng(Inexact Matching).
2. Tìm hiểu các thuật toán phát hiện đồ thị con thường xuyên trong CSDL đồ thị.
3. Cài đặt thử nghiệm thuật toán , MaxAFP phát hiện các đồ thị con thừờng xuyên trong
CSDL đồ thị với lượng đỉnh DEMO.
4. Quản lý thời gian thực hiện thuật toán với mức lượng đỉnh tăng dần
+Nghiên cứu về khai phá dữ liệu đồ thị với trọng tâm là phát hiện các đồ thị con thƣờng xu
yên trong CSDL đồ thị.
+ Tìm hiểu các nguồn thông tin từ các sách,bài báo,tạp chí, Internet..,liên
quan đến khai phá dữ liệu đồ thị.
Chương 2:
“ Phát hiện các cấu trúc con thường xuyên ” trình bày cơ sở lý thuyết đồ thị, cách tiếp cận d
ựa trên Apriori, MaxAFP,... cách tiếp cận dựa trên sự phát triển mẫu.
Chương 3:
“ Các thuật toán phát hiện đồ thị con thƣờng xuyên ” trình bày một số thuật toán phát hiện đ
ồ thị con thƣờng xuyên theo chiến lƣợc tìm kiếm theo chiều rộng và chiều sâu.
Chương 4:
“ Thiết kế hệ thống thử nghiệm ” trình bày kết quả cài đặt của thuật toán trong chƣơng 3.
Trong khi V xác định các nút, tập các cạnh E thể hiện cấu trúc của đồ thị.
Đó là một nút u ⊆ V đƣợc kết nối với một nút v ⊆ V bằng một cạnh= (u, v) nếu (u, v) ⊆
E.
Hàm ghi nhãn có thể đƣợc sử dụng để tích hợp thông
tin về các node và các cạnh vào trong các đồ thị bằng cách gán các thuộc tính từ LV và LE t
ới các node và các cạnh tƣơng ứng.
Đồ thị đƣợc định nghĩa ở trên bao gồm một số trƣờng hợp đặc biệt.
Để định nghĩa đồ thị vô hƣớng, cho một thể hiện yêu cầu u,v E cho mỗi cạnh u,v E sao cho
ν(u, v) = ν(v, u).
Trong trƣờng hợp đồ thị không thuộc tính, bảng chữ cái nhãn đƣợc xác định bởi LV LE.
2.1.2. Định nghĩa 2.2 (Subgraph):
Cho g1=(V1,E1,µ1,ν1) và g2=(V2,E2,µ2,ν2) là các đồ thị,
đồ thị g1 là một đồ thị con của g2 ,
ký hiệu g1⊆g2 nếu
• V1⊆V2.
• E1=E2∩(V1×V1).
• µ1(u) = µ2(u) cho tất cả u ⊆ V1.
• ν1(u, v)=ν2(u, v) cho tất cả (u, v) ⊆ E1.
Ngƣợc lại, đồ thị g2 đƣợc gọi là một đồ thị con của g1 đôi
khi điều kiện thứ hai của định nghĩa này đƣợc thay thế bằng E1⊆ E2. 2.1.3.
Định nghĩa 2.3 (Graph Isomorphism): Cho
g1=(V1,E1,µ1,ν1) và g2=(V2,E2,µ2,ν2) là các đồ thị.
Một đồ thị đẳng cấu giữa g1 và g2 là một hàm song ánh
f:V1→V2 thỏa mãn:
• µ1(u)=µ2(f (u)) cho tất cả các node u⊆ V1.
• Cho mỗi cạnh e1=(u, v)⊆E1, tồn tại một cạnh e2=(f (u), f (v))⊆ E2 sao cho
ν1(e1)=ν2(e2).
• Cho mỗi cạnh e2=(u, v)⊆E2, tồn tại một cạnh e1=(f-1 (u), f-1 (v))⊆ E1 sao cho
ν1(e1)=ν2(e2).
Hai đồ thị g1 và g2 đƣợc gọi là đẳng cấu nếu tồn tại một đồ thị đẳng cấu giữa chúng.
CHƯƠNG 3: TÌM HIỂU VỀ THUẬT TOÁN KHAI PHÁ DỮ LIỆU VỚI TẬP XUẤT
HIỆN TỐI ĐA TRÊN ĐỒ THỊ ĐƠN
Năm
2004, thế giới có sự chú ý lớn với vấn đề về đồ khai phá thị đơn tối đa(Mining Maxi
mal Subgraphs), bước ngoặc này giúp ta giảm bớt được số lượng đỉnh đươc tìm thấy
khi dùng thuật toán. thuật toán SPIN.
Sau đó, một bước ngoặc mới được đưa
ra với chiến lược đánh dấu nhãn các mẫu , các đỉnh của chúng được đánh dấu bởi nhã
n của chính chúng đinh
danh. Thuật toán này giúp ta xóa những đỉnh cho đến khi chúng xuất hiện và đẳng cấ
u trong một đồ thi đơn ban đầu,
sau đó thuật toán tiếp tục thêm những đường (quan hệ, cạnh) và thay đổi tập hợp con,
và dùng đẳng cấu để so sánh những đồ thì con cùng mức.
Những thuật toán khác biệt bây giờ cho phép ta tìm thấy các mẫu xuất hiện với tần số
tối đa trong một đồ thị con như là, FP-GraphMiner và wgMiner.
3.2: KHai phá đồ thị trên 1 đồ thị đơn (Single Graph)
SUBDUE là một thuật toán cho phép chúng ta có thể khai phá dữ liệu tìm kiếm các
mẫu xuất hiện với tần số xuất hiện tối đa. Sau đó vài năm, vào năm
2004 Kuramochi và Kaypris đã đề xuất thuật toán Hsigram, Vsgram và GREW cũng với mụ
c đích là khai phá dữ liêu trên một đồ thị con.
Cuối cùng, ta cần phải quan tâm đến một đề xuất thuật toán với mục đích như trên, Hellal
và Romdhane nó là phần quan trọng tham chiếu đến tất cả thuật toán trong bài báo này. Đôi
lúc nó có thể giải quyết được vấn đề đẳng cấu của đồ thị, sự khác biệt của tất cả thuật toán
đó đều là dùng xác nhập không tương đồng (Inexact Matching). Nó là không cần thiêt để
giải quyết vấn đề đẳng cấu đồ thị của chúng ta.
Vedit cho biết rằng sự tương đồng tính được bởi các đỉnh G1 và G2.
Fsim là kết quả cuối cùng dựa trên các phép tính toán của Vedit và Eedit
Vì vậy thuật toán Fsim của chúng ta miêu tả phía trê sẽ nhận vào 1 ngưỡng tương
đồng(Similarity threshold) so sánh với kết quả tìm được (Fsim), Và khi ngưỡng cho phép
thấp hơn hoặc bằng với hàm tương đồng thì có đầu ra của chúng ta chính là các đồ thị con
với ngưỡng cho phép, và đồ thị con này chứa những tập hợp con như phần miêu tả về đồ thị
tương đồng.
Và đặc biệt hơn là ta có thể mở rộng về các mẫu xuất hiện với lượt tiếp cận, chúng ta sẽ
thêm những đỉnh mới từ các mẫu từ đồ thị con và tìm thấy các mẫu của đồ thị con thống kê
được, nó khả thi cho việc mở rộng mẫu. Và chiến lược chúng ta dùng có thể cho phép sự
khác biệt ở mỗi loại mà ta sẽ giới thiệu phần tiếp theo.
3.5.5: Tần số xuất hiện các mẫu tối đã tìm được qua các ngưỡng cho phép khác nhau
Tỉ lệ xuất hiện được tìm thấy qua MaxAFP với Inexact Matching cho với giá trị của ngưỡng
cho phép tăng dần. việc đó đồng nghĩa là số lượng mẫu tìm thấy cũng giảm dần theo giá trị
tăng của ngưỡng tương đồng cho phép.
* Ta thấy được số mẫu tìm thấy được là 24 với số lương đỉnh của Đồ thị là 200 đỉnh
*Đồng nghĩa với ý trên ta thấy được hình b với giá trị ngưỡng không tương đồng cho phép
thì số lượng mẫu sẽ tăng dần và tỉ lệ thuậ với giá trị ngưỡng không tương đồng
* 1 vài điểm nhỏ cần quan tâm hơn là trong thuật toán của MaxAFP thì mẫu tìm thấy được
có thể có nhiều hoặc ít đỉnh hơn mẫu ban đầu vì chúng ta cho phép cấu trúc khác nhau ở các
đỉnh và cạnh.
Điều này dẫn đến là trong thuật toán MaxAFP nó có chứa nhiều hàm để mở rộng mẫu tìm
được nên thời gian thực hiện của thuật toán này sẽ chậm hơn so với gAPPROX.
KẾT LUẬN
Với kết quả xây dựng được thuật toán khai phá đồ thị con thường xuyên đóng với xác
định đồ thị con đẳng cấu thực hiện trong thời gian đa thức mang lại một ý nghĩa lớn trong
việc khai phá dữ liệu nói chung và khai phá đồ thị nói riêng. Tiếp theo bài báo cáo này, Em
sẽ tiếp tục thực hiện thử nghiệm thuật toán để chứng minh tính hiệu quả của thuật toán mới
được đề xuất.
LỜI CẢM ƠN
Em xin chân thành cảm ơn đến Cô Lê Thị Ngọc Thảo đã giúp đỡ và cung cấp cho em
những thông tin cần thiết và tạo điều kiện giúp em hoàn thành tốt phần báo cáo về đề tài
này.
TÀI LIỆU THAM KHẢO
[1]. J. Huan, W. Wang, A. Washington, J. Prins, R. Shah, and A. Tropsha. Accurate classification of protein
structural families based on coherent subgraph analysis. In Proceedings of Pacific Symposium on
Biocomputing, pages 411-422, 2004.
[2]. M. Flores-Garrido , J.A. Carrasco-Ochoa, J.F. Martínez-Trinidad. Mining Maximal frequence patterns
in a single graph using Inexact Matching.
[3].Y. Chi, Y. Yang, Y. Xia, and R.R. Muntz. 2004. HybridTreeMiner: An Efficient Algorithm for Mining
Frequent Rooted Trees and Trees using Canonical Forms, In Proceedings of the 16th International
Conference on Scientific and Statistical Database Management, 11–20.
[4]. D.J. Cook and L.B. Holder. Substructure discovery using minimum description length and background
knowledge. Journal of Artificial Intelligence Research, 1:231-255, 1994.
[5].D.W. Matula. Subtree isomorphism in O(n 5/2 ). Annals of Discrete Mathematics, 2: 91-106, 1978.
[6]. M. Kuramochi and G. Karypis. 2001. Frequent Subgraph Discovery, In Proceedings of International
Conference on Data Mining, 313–320.
[7].Pearce, T. Caelli, and W.F. Bischof. Rule-graphs for graph matching in pattern recognition. Pattern
Recognition, 27(9):1231-246, 1994.
[8].D.C. Schmidt and L.E. Druffel. A fast backtracking algorithm to test directed graphs for isomorphism
using distance matrices.