Nghiên cứu xây dựng hệ thống tìm kiếm video thông minh theo thông tin hình ảnh
Lam Vân
08/04/2019
KH&CN trong nước
Đề tài do tác giả Nguyễn Vinh Tiệp và cộng sự (Trung tâm Phát triển KH&CN Trẻ) thực hiện nhằm nghiên cứu và phát triển hệ thống phần mềm cho phép người sử dụng tìm kiếm từ kho dữ liệu video lớn các phân đoạn video chứa thông tin tương ứng với hình ảnh/vật mẫu trong thế giới thực.
Hiện nay, các hệ thống tương tác thông minh ngày càng được quan tâm và có những ứng dụng thiết thực trong cuộc sống. Các hệ thống này sử dụng những kênh đầu vào theo hướng tiếp cận tương tự như các giác quan của con người (như thị giác, thính giác, vị giác, khứu giác,...) nên cần giải quyết nhiều bài toán cơ bản liên quan đến các kênh dữ liệu đầu vào như dữ liệu hình ảnh, âm thanh và các cảm biến khác.
Đề tài tập trung nghiên cứu, xây dựng các thuật toán tìm kiếm đối tượng dựa vào đặc trưng thị giác trên kho dữ liệu lớn và xây dựng ứng dụng tương tác minh họa. Khái niệm tìm kiếm dựa trên đặc trưng thị giác được hiểu theo nghĩa đối tượng tìm kiếm là ảnh hoặc video được đánh chỉ mục hoàn toàn tự động mà không có sự can thiệp của con người. Bài toán tìm kiếm này có rất nhiều ứng dụng trong thực tế như ứng dụng tìm kiếm hình ảnh, hệ thống giám sát, quản lý thương hiệu, quảng cáo. Đối với những đối tượng tìm kiếm của ảnh mẫu, người sử dụng có thể quan tâm đến toàn bộ cảnh vật trong ảnh cho đến những đối tượng với kích thước lớn nhỏ khác nhau. Khi tìm kiếm với những đối tượng ít đặc trưng, ví dụ như những đối tượng nhỏ hoặc không có nhiều hoa văn, giả thuyết của mô hình BOW (Bag of Visual Word) bị vi phạm. Cho dù sử dụng các kỹ thuật hậu xử lý nâng cao của mô hình BOW cũng như kiểm tra ràng buộc hình học, mở rộng truy vấn vẫn không giải quyết được vấn đề trên.
Do vậy, nhóm tác giả đề xuất phương pháp kiểm tra ràng buộc mới trong đó dung hợp mô hình BOW (tiếp cận từ dưới đi lên hay còn gọi là bottom up) và phương pháp phát hiện đối tượng (tiếp cận từ trên xuống hay còn gọi là top down). Đóng góp chính của đề xuất này là khai thác hiệu quả mối quan hệ về vị trí của các từ thị giác (visual word) với vị trí đề xuất đối tượng (object instance propsal) được ước lượng bởi bộ phát hiện đối tượng. Trong quá trình phát triển các thuật toán phục vụ cho bài toán tìm kiếm đối tượng dựa vào thông tin thị giác, nhóm tác giả cũng xây dựng các hệ thống tương tác đi kèm để minh họa cho ý tưởng tương tác và tiềm năng ứng dụng thực tế như hệ thống tra cứu thông tin du lịch, văn hóa và sản phẩm, hệ thống khuyến nghị hỗ trợ gợi nhớ hình ảnh có liên quan dựa trên mạng xã hội.