SpStinet - vwpChiTiet

 

Kỹ thuật ẩn danh bảo vệ tính riêng tư cho dữ liệu mở

Là nhiệm vụ nghiên cứu khoa học và công nghệ cấp Thành phố, do Trường Đại học Bách Khoa TP.HCM chủ trì thực hiện, TS. Trương Tuấn Anh làm chủ nhiệm, Sở Khoa học và Công nghệ TP.HCM nghiệm thu năm 2020.

Hiện tại, các hệ thống dữ liệu mở từ các cấp cộng đồng nhỏ lẻ đến các tập đoàn doanh nghiệp lớn cũng như chính phủ đang được thực hiện và có nhu cầu ngày càng cao trong và ngoài nước để dựa vào đó tạo ra các dịch vụ mới, tri thức mới. Dữ liệu mở tuy không phải là một khái niệm mới nhưng cùng với sự phát triển của internet và công nghệ hiện nay, dữ liệu mở đang và sẽ trở thành một trong những hướng nghiên cứu nổi bật và tất yếu, đặc biệt trong xu hướng phát triển đô thị thông minh (smart city).

Dữ liệu mở còn được xem là một trong những chỉ tiêu để đánh giá mức độ phát triển của chính phủ điện tử (E-Government). Cụ thể hơn, nhiều quốc gia đã thiết lập cổng chuyên dụng để chia sẻ dữ liệu gọi là Open Government Data Portals hay Open Government Data Catalogues để giúp người dân có thể dễ dàng truy cập các dữ liệu mở này. Việt Nam cũng được xem là một trong những quốc gia có chỉ số chính phủ điện tử ở mức cao. Các bộ dữ liệu mở tại Việt Nam được chia theo các danh mục bao gồm: dữ liệu mở giáo dục; dữ liệu mở về khoa học công nghệ; dữ liệu mở về tài nguyên môi trường; và các loại dữ liệu mở khác.

Tuy nhiên, các hệ thống dữ liệu mở phải đối mặt với rất nhiều vấn đề như phải có các hệ thống quản trị dữ liệu hiệu quả. Trong đó, nổi bật và cấp thiết phải có giải pháp để giải quyết vấn đề quan trọng là bảo mật và tính riêng tư. Ẩn danh (Anonymization), một bước không thể thiếu trước khi tiến hành công khai dữ liệu, là một công nghệ chìa khóa hỗ trợ bảo vệ tính riêng tư ở nhiều mức độ khác nhau, đáp ứng được nhiều yêu cầu ứng dụng cũng như chính sách/luật khác nhau. Để bảo vệ tính riêng tư dữ liệu, ẩn danh là một kỹ thuật phổ biến và có nhiều cách tiếp cận đã được nghiên cứu và phát triển.

Đề tài nêu trên nhằm tìm hiểu, xây dựng một kiến trúc nền tảng phù hợp đi kèm với các kỹ thuật xử lý dữ liệu cho hệ thống dữ liệu mở để bảo vệ tính riêng tư trước khi công khai dữ liệu mà vẫn đảm bảo tối đa chất lượng dữ liệu cho việc phân tích, tính sẵn sàng và liên tục của hệ thống cũng như sự tương thích với các đặc điểm dữ liệu (ứng dụng) khác nhau, đặc biệt là trong môi trường smart city.

Nhóm nghiên cứu đã tìm hiểu các kiến trúc dữ liệu mở như CKAN, Dspace, DKAN, Socrata Open Data Platform và Juar. Đồng thời đã tìm hiểu các framework đang có trong việc thực hiện ẩn danh hóa dữ liệu để bảo vệ tính riêng tư của dữ liệu như: ARX, SECRETA, PSI, RAPPOR, Amnesia. Các framework có một số giải thuật thực hiện việc ẩn danh, nhóm tác giả đã tìm hiểu phân tích các điểm mạnh, điểm yếu các giải thuật bảo vệ tính riêng tư như: k-anonymity, l-diversity, δ-presence và riêng tư vi phân (differential privacy). Từ đó đề xuất framework cũng như các bước thực hiện để bảo vệ tính riêng tư của dữ liệu, đánh giá các kỹ thuật bảo vệ tính riêng tư, đồng thời đánh giá về mức độ sử dụng của dữ liệu.

Các bước thực hiện ẩn danh hóa dữ liệu mở để bảo vệ tính riêng tư gồm: xác định/chọn lựa loại dữ liệu cần ẩn danh; xác định các rủi ro dữ liệu từ dữ liệu gốc; chạy các giải thuật ẩn danh, các giải thuật k-anonymity, t-closeness, l-diversity, δ-presence, riêng tư vi phân thực hiện ẩn danh dữ liệu; kiểm tra độ rủi ro tính riêng tư; đánh giá về độ hữu dụng của dữ liệu mặc định.

Nhóm tác giả đã cài đặt thử nghiệm hai framework ARX và amnesia để chạy thử bộ dữ liệu dân số có 30162 dữ liệu với các thuộc tính như giới tính, tuổi, màu da, quốc tịch, thu nhập, nghề nghiệp, tình trạng hôn nhân, nơi thường trú. Cuối cùng, nhóm đã hiện thực framework bảo vệ tính riêng tư cho dữ liệu mở như kiến trúc đề xuất trên nền tảng framework dữ liệu mở CKAN, và cung cấp giao diện cho người dùng được dễ dàng. Ngoài ra, các tập dữ liệu SS13ACS, IHIS, ATUS, FARS, CUP cũng được chạy thử trên framework ARX để đo độ rủi ro của từng loại thuộc tính trên tập dữ liệu. Sau đó thực hiện ẩn danh hoá, và cuối cùng là thực hiện đo độ rủi ro các thuộc tính sau khi thực hiện ẩn danh dữ liệu.

Từ những nghiên cứu về các framework dữ liệu mở, bảo vệ tính riêng tư cho người dùng, nhóm tác giả đề xuất framework bảo vệ tính riêng tư cho dữ liệu mở và đã xây dựng bản prototype để thử nghiệm theo mô hình client-server. Kiến trúc của bản prototype gồm 15 bước thể hiện một luồng hoạt động cơ bản cho một yêu cầu ẩn danh hoá dữ liệu trước khi xuất bản thành dữ liệu mở. Các chức năng có trong hệ thống gồm: tạo yêu cầu ẩn danh hóa; xem kết quả của quá trình ẩn danh hóa; xuất tập dữ liệu sau khi được ẩn danh trên CKAN. Ở client, các tác giả xây dựng giao diện để người dùng có thể đưa dữ liệu lên server và thực hiện ẩn danh, chọn mô hình, thuộc tính ẩn danh, và nhận kết quả dữ liệu đã ẩn danh. Ở phía server, nhóm đã xây dựng các mô hình ẩn danh dữ liệu trên nền tảng kiến trúc dữ liệu mở CKAN, có thể nhận dữ liệu chưa được ẩn danh từ server, trả kết quả dữ liệu đã được ẩn danh về phía client.

Bản prototype đã được chạy thử nghiệm với các tập dữ liệu có cấu trúc, cụ thể gồm: SS13ACS (kết quả cuộc khảo sát về dân số của Cục Điều tra dân số Hoa Kỳ); IHIS (kết quả khảo sát sức khoẻ của người dân Hoa Kỳ); ATUS (kết quả cuộc khảo sát về việc sử dụng thời gian của công dân Hoa Kỳ); FARS (kết quả thống kê về tai nạn từ các báo cáo tử vong của Hoa Kỳ); CUP (dữ liệu được dùng trong Cuộc thi Knowledge Discovery and Data Mining Tools Competition - KDD Cup lần thứ 2 năm 1998); ADULT (một phần của dữ liệu khảo sát dân số Hoa Kỳ năm 1994). Trong tương lai, nhóm sẽ thử nghiệm các kỹ thuật ẩn danh trên các tập dữ liệu âm thanh và hình ảnh.

Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu đề tài tại Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI).

Lam Vân (CESTI)

Các tin khác:

  • 10 mẫu tin
  • 50 mẫu tin
  • 100 mẫu tin
  • Tất cả