SpStinet - vwpChiTiet

 

Nghiên cứu công cụ ứng dụng trên hệ thống máy tính và xử lý dữ liệu lớn

Là nhiệm vụ nghiên cứu khoa học và công nghệ cấp Thành phố, do Trường Đại học Bách Khoa TP.HCM chủ trì thực hiện, PGS.TS. Thoại Nam làm chủ nhiệm, Sở Khoa học và Công nghệ TP.HCM nghiệm thu năm 2020.

Hiện nay có nhiều bài toán phức tạp, cần giải quyết trên hệ thống máy tính mạnh. Các bài toán dạng (1) thiên về tính toán khoa học cần một hệ thống máy tính có bộ xử lý mạnh như các hệ thống đa lõi, nhiều lõi và băng thông truyền dữ liệu lớn. Các bài toán dạng (2) thiên về phân tích dữ liệu thì cần hệ thống có bộ nhớ RAM lớn, băng thông truy xuất dữ liệu bộ nhớ lớn cũng như băng thông truyền dữ liệu lớn.

Một hệ thống máy tính mạnh đạt hiệu năng hoạt động cao không chỉ phụ thuộc vào sức mạnh phần cứng mà còn phụ thuộc vào phần mềm hệ thống và công cụ hỗ trợ đi kèm. Chính công cụ hỗ trợ hiệu quả sẽ cho phép nhiều người sử dụng tiếp cận hệ thống thuận lợi hơn và giúp tăng tần suất cũng như hiệu suất hoạt động của hệ thống.

Với đề tài nêu trên, nhóm tác giả tập trung nghiên cứu xây dựng bộ công cụ phần mềm hỗ trợ triển khai ứng dụng cho hệ thống máy tính mạnh và xử lý dữ liệu lớn (High Performance Data Analytics - HPDA). Các công cụ phần mềm này được triển khai thực tế trên hệ thống máy tính mạnh SuperNode-XP tại trường Đại học Bách Khoa TP.HCM nhằm giúp người dùng dễ dàng triển khai ứng dụng, tự động/bán tự động việc quản trị hệ thống hướng đến sử dụng hệ thống hiệu quả hơn.

Theo đó, HPC Portal (cổng giao tiếp đặc biệt cho hệ thống tính toán hiệu năng cao) phục vụ cho các hệ thống máy tính lớn đã được nghiên cứu và phát triển, đóng vai trò kết nối người dùng và tài nguyên trên hệ thống máy tính. Những chức năng cần thiết đều được triển khai thông qua cổng giao tiếp trên môi trường web. Do có nhiều người sử dụng với các yêu cầu khác nhau trên cùng một hệ thống máy tính này nên việc quản lý và cấp tài khoản cũng như phân quyền, cung cấp tài nguyên cho người dùng cũng được nghiên cứu và triển khai thực tế trên SuperNode-XP tại Phòng thí nghiệm Tính toán Hiệu năng cao – Đại học Bách Khoa.

Định hướng phát triển công cụ trong đề tài là tận dụng các công cụ mã nguồn mở thông dụng, phát triển thêm các tính năng cần thiết, phát triển phần giải thuật và kết nối các công cụ với nhau tạo nên một bộ công cụ hỗ trợ phát triển ứng dụng tính toán và ứng dụng phân tích dữ liệu lớn. Việc này đảm bảo tính ổn định và tương thích với các giải pháp kỹ thuật đang được triển khai tại nhiều đơn vị như hệ thống quản lý tài khoản người dùng sử dụng LDAP (giao thức ứng dụng truy cập các cấu trúc thư mục), công cụ quản lý máy ảo, quản lý container sử dụng Docker nguồn mở. Ngoài ra, công cụ hỗ trợ cho công tác quản trị hệ thống được quan tâm phát triển cho mục đích phục vụ công tác quản lý người dùng, quản lý ứng dụng nhằm nâng cao hiệu suất sử dụng của hệ thống. Những công cụ chuyên dụng đi kèm với phần cứng có thể tích hợp vào thông qua kết nối như thu gom dữ liệu về một cơ sở dữ liệu chung hay cách nhúng các công cụ này vào giao diện. Đồng thời, một công cụ về giám sát hệ thống cũng được phát triển dựa trên công cụ nguồn mở Zabbix.

Giải pháp quản lý và phân bổ ứng dụng được triển khai dựa trên bộ công cụ mã nguồn mở PBS Pro (công cụ phần mềm quản lý tải và bộ lập lịch ứng dụng cho hệ thống máy tính hiệu năng cao/thông năng cao mã nguồn mở) với phần giải thuật phân tải được phát triển thêm và tích hợp vào PBS Pro. Giải pháp quản lý và cung cấp tài nguyên cho bài toán phân tích dữ liệu lớn được triển khai trên Docker Container để tăng tính linh động cho việc triển khai và đơn giản hoá trong việc quản lý hạ tầng phần cứng của toàn hệ thống máy tính mạnh. Bài toán phân tích dữ liệu sinh viên cũng đã triển khai thử nghiệm trên giải pháp này tại hệ thống SuperNode-XP và cho kết quả tốt. Ngoài ra, một thư viện pyMIC-DL giúp triển khai các ứng dụng học sâu qua thư viện Chainer chạy trên Xeon Phi cũng được thực hiện.

Ứng dụng phân tích dữ liệu lớn trong giai đoạn hiện tại được cộng đồng nghiên cứu và triển khai trên công cụ Hadoop và Spark. Vì vậy, hai công cụ này được nhóm tác giả nghiên cứu và triển khai trong hệ thống máy tính mạnh chuyên về phân tích dữ liệu. Những công cụ tiện ích giúp cho việc triển khai Hadoop và Spark đơn giản và nhanh chóng. Bên cạnh đó, công nghệ ảo hoá sử dụng Docker được quan tâm ứng dụng trong đề tài do ưu điểm thừa hưởng tính năng từ hệ điều hành tốt hơn máy ảo, ít giảm hiệu năng của hệ thống và đây là xu thế công nghệ đang được quan tâm phát triển và ứng dụng.

Kết quả nghiên cứu của đề tài có thể triển khai quản lý một hệ thống máy tính lớn hỗ trợ tính toán hiệu năng cao và phân tích dữ liệu phục vụ hướng phân tích dữ liệu hiệu năng cao. Bộ công cụ phát triển trong đề tài đã được triển khai trên hệ thống SuperNode-XP và  đưa vào vận hành, ứng dụng thực tế phục vụ cho những nhóm người sử dụng khác nhau cũng như đánh giá qua một số ứng dụng cụ thể. Kết quả hiện tại có thể ứng dụng vào những hệ thống máy tính mạnh khác.

Hướng phát triển tương lai có thể dựa trên kết quả đang có để phát triển hệ thống phần mềm quản lý cho một hệ thống máy tính mạnh hỗ trợ ba hướng chính trong tính toán hiện đại: (1) Tính toán hiệu năng cao, (2) Trí tuệ nhân tạo hướng học máy và học sâu và (3) Phân tích dữ liệu lớn. Hệ thống này rất cần thiết trong việc định hướng phát triển trí tuệ nhân tạo, đô thị thông minh và công nghiệp 4.0 vì nó cho phép chia sẻ tài nguyên tính toán cho nhiều đơn vị nâng cao khả năng cạnh tranh trong phát triển sản phẩm cho doanh nghiệp. Để đạt yêu cầu đó, hệ thống phần mềm cần tập trung sâu hơn về việc cung cấp dịch vụ ảo hoá tài nguyên trên toàn hệ thống. Việc phát triển các dịch vụ phục vụ phát triển ứng dụng về trí tuệ nhân tạo cần được nghiên cứu sâu hơn. Một việc quan trọng cần phát triển là hệ thống lưu trữ dữ liệu lớn hướng đến các bài toán trong ba định hướng nêu trên. Khi triển khai ở quy mô lớn hơn, số lượng dịch vụ và người sử dụng cũng lớn hơn và đa dạng hơn, hệ thống cần được đánh giá toàn diện hơn.

Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu đề tài tại Trung tâm Thông tin và Thống kê Khoa học và Công nghệ (CESTI).

Lam Vân (CESTI)

Các tin khác:

  • 10 mẫu tin
  • 50 mẫu tin
  • 100 mẫu tin
  • Tất cả