SpStinet - vwpChiTiet

 

Thuật toán khai phá tập mục dữ liệu thường xuyên trong cơ sở dữ liệu gia tăng dựa trên phân lớp dữ liệu

Những vấn đề về khai phá luật kết hợp trước đây được nhiều tác giả nghiên cứu. Các thuật toán này chủ yếu xử lý trên tập dữ liệu xác định trước nhưng các tập dữ liệu luôn được bổ sung và gia tăng theo thời gian. Vì thế các luật kết hợp đã được tính toán không còn giá trị trên tập dữ liệu mới.

Để phát triển thuật toán này, tác giả Nguyễn Hữu Trọng trình bày cụ thể các bước của thuật toán tăng trưởng bao gồm: phân hoạch dữ liệu, thủ tục Split_Class, thủ tục Candidate, thủ tục Support, khai phá tập thường xuyên, thuật toán gia tăng, thủ tục Increment và thử nghiệm thuật toán gia tăng.
Quá trình thử nghiệm cho thấy, thuật toán gia tăng đã giải quyết được một số vấn đề sau: với một CSDL giao tác có kích thước lớn, không thể đưa hết vào bộ nhớ trong để xử lý, thuật toán phân hoạch thành n tập nhỏ lưu ở bộ nhớ ngoài. Mỗi lần xử lý chỉ đưa một số tập phân hoạch vào bộ nhớ trong. Việc tính độ hỗ trợ của một tập ứng viên chỉ là phép giao của một số phân hoạch tương ứng, tốc độ xử lý nhanh. Theo thời gian, dữ liệu tăng thêm một tập T, thuật toán gia tăng tính toán lại độ hỗ trợ của các tập ứng viên trong SC chỉ dựa vào tập dữ liệu tăng thêm, mà không cần tính toán lại từ đầu. Do vậy việc sử dụng thuật toán này tiết kiệm được nhiều thời gian.

BH (Theo Tạp chí KH&CN, tập 45, số3/07)

 

Các tin khác:

  • 10 mẫu tin
  • 50 mẫu tin
  • 100 mẫu tin
  • Tất cả