SpStinet - vwpChiTiet

 

Số hóa và rút trích thông tin tài liệu tự động bằng phần mềm SmartDoc

SmartDoc là công nghệ nhận dạng và rút trích thông tin ảnh tài liệu dựa trên kỹ thuật nhận dạng ký tự quang học. Công nghệ kết hợp các kỹ thuật xử lý ảnh tài liệu của Tesseract, các kỹ thuật xử lý ảnh nâng cao, xử lý nhận dạng chữ số viết tay, xử lý ngôn ngữ tự nhiên cho bài toán sửa lỗi chính tả và rút trích thông tin.

Thực trạng lĩnh vực ứng dụng công nghệ

Hiện nay, nhiều đơn vị hành chính đã triển khai sử dụng các phần mềm quản lý văn bản điều hành nhằm hỗ trợ bộ phận văn thư tiếp nhận và lưu trữ, quản lý một cách khoa học, hiệu quả các văn bản đến/đi của cơ quan, đơn vị. Tuy nhiên, hiện các phần mềm vẫn còn một số hạn chế như:

  • Chưa có chức năng hỗ trợ bộ phận văn thư nhập thông tin số hiệu văn bản đến một cách tự động, hiệu quả.
  • Chưa có chức năng số hóa, tra cứu toàn bộ nội dung của các tài liệu, văn bản được gửi đến bằng bưu điện.

Phần mềm rút trích thông tin tài liệu SmartDoc được xây dựng theo hướng module tích hợp với các phần mềm quản lý văn bản điều hành và các phần mềm lưu trữ, quản lý tài liệu khác (nếu có nhu cầu).

Quy trình và phương pháp tổ chức thực hiện

Mô hình hệ thống

Các tính năng chính

Số hóa và rút trích thông tin tài liệu

Văn bản hành chính: SmartDoc hỗ trợ số hóa và rút trích thông tin các văn bản hành chính (được soạn thảo theo quy chuẩn của Bộ Nội vụ); xử lý nhiễu văn bản, hình ảnh các con dấu đè lên nội dung thông tin văn bản,…SmartDoc các trường thông tin cơ bản được rút trích: cơ quan ban hành; số ký hiệu; ngày ban hành; loại văn bản; trích yếu. Ngoài rút trích, SmartDoc còn có thể phân tích các căn cứ, nội dung văn bản; thông tin về người ký văn bản.

Tài liệu có cấu trúc hoặc bán cấu trúc: SmartDoc hỗ trợ số hóa và rút trích thông tin các tài liệu có cấu trúc hoặc bán cấu trúc như: văn bằng chứng chỉ, giấy chứng nhận, hộ chiếu,…với khả năng nhận dạng các tài liệu ảnh màu (màu nền, có viền màu, chữ màu,…), nhận dạng các trường thông tin nằm trên một hoặc nhiều dòng liên tiếp; có khả năng phân tích nội dung thông tin để rút trích và index các thông tin cơ bản của tài liệu.

Cấu hình và rút trích thông tin tài liệu theo cấu hình

Cấu hình tài liệu: SmartDoc hỗ trợ người dùng tự cấu hình tài liệu qua xác định các trường thông tin cần rút trích, căn cứ theo: vị trí tương đối của trường thông tin so với trang tài liệu; vị trí tương đối của trường thông tin với các trường thông tin khác; các đặc trưng của trường thông tin (từ khóa, định dạng của thông tin, độ dài, chữ in,…). SmartDoc hỗ trợ cấu hình với nhiều trang, mỗi trường thông tin sẽ được xác định thuộc một hoặc nhiều trang liên tiếp.

Lưu cấu hình tài liệu: Cấu hình sau khi tạo sẽ được lưu lại dưới dạng file JSON để sử dụng số hóa và rút trích thông tin các tài liệu có cấu hình tương tự. Mỗi cấu hình được xác định bởi: tên cấu hình; mô tả cấu hình; các trường thông tin của cấu hình.

Số hoá và rút trích thông tin tài liệu theo cấu hình: Quy trình sử dụng cấu hình để số hóa và rút trích thông tin tài liệu tương tự: chọn cấu hình đã được định nghĩa hoặc load cấu hình từ file JSON đã được lưu; chọn tài liệu cần số hóa và rút trích thông tin.

Số hoá bảng dữ liệu

SmartDoc hỗ trợ số hóa tài liệu dạng bảng: độ chính xác nhận dạng cao; khả năng xử lý đa dạng các loại bảng dữ liệu (có hoặc không có border, border dạng line hoặc chấm bi,…); tự động xác định hàng, cột và giá trị từng ô trong bảng dữ liệu; xuất kết quả số hóa ra file (dạng Excel, JSON, TXT), hỗ trợ tối đa cho việc tích hợp và sử dụng kết quả số hoá.

Ưu điểm của công nghệ, hiệu quả kinh tế

Trên cơ sở kế thừa các tính năng ưu việt của công nghệ OCR, công nghệ giải quyết được các hạn chế của các chương trình hiện có và đặc biệt phù hợp với việc nhận dạng ký tự và rút trích thông tin từ văn bản hành chính ở Việt Nam.

SmartDoc phát triển khả năng nhận dạng văn bản tiếng Việt, phát triển mạnh các chức năng tiền xử lý ảnh văn bản: nhị phân hóa, lọc nhiễu, khử ảnh nền, xác định dòng, vùng ảnh thông tin văn bản,…hỗ trợ tốt hơn việc nhận dạng và bóc tách thông tin đa dạng ảnh văn bản.

SmartDoc với các chức năng nổi bật, tạo nên sự khác biệt với các phần mềm ứng dụng khác:

  • Tự động nhận dạng và rút trích thông tin văn bản hành chính. Xử lý được mọi văn bản được soạn thảo theo chuẩn quy định của Bộ Nội vụ, không phụ thuộc vào đặc thù chuyên môn, chuyên ngành của văn bản.
  • Ngoài văn bản hành chính, các tài liệu có cấu trúc hay bán cấu trúc, SmartDoc hỗ trợ việc cấu hình tài liệu nhanh, dễ dàng đưa vào Phần mềm tự động nhận dạng và rút trích thông tin; hỗ trợ tốt công tác số hóa và rút trích thông tin tài liệu với lượng mẫu lớn. Hiện SmartDoc đã được đưa vào ứng dụng nhận dạng và rút trích thông tin hỗ trợ các ngành Y tế hay Du lịch (quản lý các tài liệu như: Chứng chỉ hành nghề dược, Chứng chỉ hành nghề khám bệnh, chữa bệnh, Giấy chứng nhận nhà thuốc,… hay Quyết định cấp và đổi thẻ Hướng dẫn viên du lịch, tài liệu quản lý cơ sở lưu trú du lịch,…)
  • Một chức năng rất quan trọng và có tính ứng dụng cao của SmartDoc - Hỗ trợ người dùng tự định nghĩa cấu hình tài liệu cần rút trích với giao diện trực quan, dễ dàng tích hợp với SmartDoc hỗ trợ tự động nhận dạng và rút trích theo định nghĩa cấu hình.

Với chất lượng scan văn bản khá tốt như phần lớn các văn bản đang lưu hành hiện nay, cùng với chất lượng của các thiết bị số hóa (máy scan chuyên dụng và máy scan phổ thông) ngày càng cao, SmartDoc cho kết quả nhận dạng và rút trích thông tin với độ chính xác rất cao (trên 95%), đảm bảo tính khả thi trong việc ứng dụng vào các hệ thống quản lý tài liệu thực tế.

SmartDoc đảm bảo nhận dạng các ảnh văn bản có định dạng: PDF, TIFF, JPEG, BMP, PNG,…; có khả năng nhận dạng văn bản theo từng vùng chỉ định.

SmartDoc có khả năng tích hợp hệ thống dễ dàng, cho phép nhận dạng nhiều văn bản cùng lúc. Tốc độ nhận dạng và rút trích thông tin văn bản cao, chỉ khoảng 5-7 giây/trang A4.

Thông tin liên hệ chuyên gia, hỗ trợ

Ông Lê Trung Hiếu

Trung tâm Công nghệ thông tin – Đại học Huế

Địa chỉ: 20 Lê Lợi, TP. Huế

Điện thoại: 0909 127 087

Email: [email protected]

Các tin khác:

  • 10 mẫu tin
  • 50 mẫu tin
  • 100 mẫu tin
  • Tất cả