Lưu

Luận án: Công nghệ tóm tắt văn bản tự động Big Data

Danh mục: Luận văn - Luận án, Tài liệu tham khảo Người đăng: Ly Võ Thị Nhà xuất bản: Đại học Cần Thơ Tác giả: Nguyễn Tí Hon Ngôn ngữ: Tiếng Việt, Tiếng Anh Định dạng: DOCX, PDF, ZIP Lượt xem: 5 lượt Lượt tải: 0 lượt

Tải tài liệu Xem thử

Tài liệu, tư liệu này được chúng tôi sưu tầm từ nhiều nguồn và được chia sẻ với mục đích tham khảo, các bạn đọc nghiên cứu và muốn trích lục lại nội dung xin hãy liên hệ Tác giả, bản quyền và nội dung tài liệu thuộc về Tác Giả & Cơ sở Giáo dục, Xin cảm ơn !

Nội dung

TRANG THÔNG TIN VỀ LUẬN ÁN

– Tên luận án: Tóm Tắt Tự Động Văn Bản Trên Tập Dữ Liệu Lớn

– Ngành: Hệ thống thông tin Mã số: 9480104

– Họ tên nghiên cứu sinh: Nguyễn Tí Hon Khóa: 2020

– Người hướng dẫn khoa học: PGS.TS. Đỗ Thanh Nghị

– Cơ sở đào tạo: Đại học Cần Thơ

1. Tóm tắt nội dung luận án

Tóm tắt tự động văn bản là mảng nghiên cứu cốt lõi trong xử lý ngôn ngữ tự nhiên. Hai hướng tiếp cận chính trong các nghiên cứu về tóm tắt tự động văn bản là tóm tắt rút trích và tóm tắt tóm lược. Trong đó, bản tóm tắt đơn văn bản là một bản tóm tắt của một văn bản; bản tóm tắt đa văn bản là một bản tóm tắt của tập hợp các văn bản. Tóm tắt tự động văn bản là lĩnh vực nghiên cứu sôi động, thu hút nhiều sự quan tâm của cộng đồng khoa học. Dẫn tới sự xuất hiện số lượng đáng kể các tập dữ liệu thực nghiệm Tiếng Anh. Tuy nhiên, các nghiên cứu thực nghiệm trên các tập dữ liệu Tiếng Việt chỉ mới ở giai đoạn bắt đầu. Hầu hết trong số ít các nghiên cứu đó tập trung vào tóm tắt rút trích cho đa văn bản; hoặc tóm tắt tóm lược cho đơn văn bản. Bên cạnh đó, các tập dữ liệu thực nghiệm tóm tắt văn bản Tiếng Việt hiện chưa thật sự phong phú.

Trong thời đại bùng nổ thông tin, lượng dữ liệu văn bản Tiếng Việt trên Internet ngày càng nhiều. Đây là cơ hội rất tốt để nghiên cứu tóm tắt tự động văn bản, thực nghiệm trên các tập dữ liệu Tiếng Việt. Do đó, luận án thực hiện thu thập, xây dựng tập dữ liệu lớn văn bản Tiếng Việt. Nghiên cứu, đề xuất các mô hình tóm tắt tự động có hiệu quả thực thi nhanh cho tập dữ liệu lớn đồng thời đảm bảo chất lượng bản tóm tắt tương đương với các mô hình hiện đại. Góp phần làm dồi dào thêm các nghiên cứu về tóm tắt tự động văn bản Tiếng Việt, đồng thời làm tiền đề cho các nghiên cứu sau này. Các đóng góp chính của luận án bao gồm một tập dữ liệu lớn cho thực nghiệm tóm tắt tự động văn bản Tiếng Việt, bốn mô hình tóm tắt đơn văn bản hiệu suất cao về mặt thời gian và chất lượng bản tóm tắt xấp xỉ các mô hình hiện đại. Ba trong bốn mô hình được đề xuất là tóm tắt rút trích và mô hình còn lại là tóm tắt tóm lược.

Trước tiên, luận án xây dựng tập dữ liệu thực nghiệm VNText bằng cách thu thập, trích lọc bài viết từ các trang thông tin điện tử Tiếng Việt, lên đến hơn một triệu văn bản. Sau đó luận án, đánh giá kết quả tóm tắt tập VNText trên ba mô hình tóm tắt có kiến trúc sequence-to-sequence dựa trên mạng LSTM và mạng Transformers, làm số liệu baseline để so sánh với các mô hình được nghiên cứu đề xuất trong luận án.

Luận án đề xuất mô hình SKSUM bằng cách kết hợp các mô hình biểu diễn dữ liệu văn bản, tương thích với dữ liệu Tiếng Việt, với mô hình gom cụm dữ liệu làm cơ sở trích câu. SKSUM là mô hình tóm tắt văn bản rút trích đơn giản, hiệu quả thực thi cao và chất lượng tóm tắt cao theo thang đo ROUGE. Đề xuất thứ hai, mô hình PESUM, mô hình này được tăng tốc quá trình tóm tắt bằng cách huấn luyện trước mô hình gom cụm dữ liệu làm cơ sở trích câu, kết hợp với song song hoá tính toán trong các hàm tóm tắt. Tiếp theo chuỗi các nghiên cứu tóm tắt rút trích, luận án đề xuất cải tiến chất lượng bản tóm tắt của mô hình PESUM bằng cách kết hợp thêm bộ phân lớp dữ liệu và đặt tên là CPESUM.

Trong hướng tóm tắt tóm lược, luận án đề xuất mô hình THASUM, với mục tiêu tăng tốc quá trình tóm tắt tóm lược cho tập dữ liệu lớn, đồng thời vẫn đảm bảo tiêu chí về chất lượng bản tóm tắt. Mô hình THASUM được thiết kế dựa trên kiến trúc Transformer với đầy đủ encoder và decoder. Hiệu suất huấn luyện và tóm tắt của THASUM được đẩy mạnh nhờ việc giảm đi số lớp encoder, decoder so với mạng Transformer gốc. Chất lượng bản tóm tắt THASUM sinh ra được đảm bảo nhờ các siêu tham số được thiết kế phù hợp với tập dữ liệu văn bản Tiếng Việt VNText.

2. Những kết quả mới của luận án

Luận án Tóm Tắt Tự Động Văn Bản Trên Tập Dữ Liệu Lớn đã thực hiện nghiên cứu lý thuyết, thu thập xử lý dữ liệu, đề xuất các mô hình tóm tắt nhanh cho tập dữ liệu văn bản lớn, công bố các kết quả nghiên cứu tại các hội thảo và trên tạp chí chuyên ngành có uy tín. Những điểm mới của luận án có thể kể đến:

Luận án xây dựng tập dữ liệu thực nghiệm văn bản lớn Tiếng Việt VNText sử dụng trong tóm tắt tự động văn bản, phân lớp dữ liệu văn bản, huấn luyện các mô hình vector ngữ nghĩa và vector ngữ cảnh cho văn bản.

Luận án đề xuất sử dụng mô hình vector ngữ nghĩa toàn cục Glove embedding để cải thiện hiệu quả biểu diễn ngữ nghĩa văn bản Tiếng Việt giúp duy trì độ chính xác cao cho các mô hình tóm tắt. Điểm này được thể hiện trong các mô hình SKSUM, PESUM và CPESUM.

Luận án đề xuất huấn luyện trước mô hình gom cụm làm cơ sở để trích câu trong tóm tắt tự động văn bản, giúp tiết kiệm chi phí gom cụm trong mỗi lần tóm tắt đồng thời cải thiện hiệu suất tóm tắt. Điểm này được thể hiện thông qua các mô hình PESUM và CPESUM.

Luận án đề xuất nâng cao hiệu suất tóm tắt rút trích trên tập dữ liệu lớn bằng cách huấn luyện trước mô hình gom cụm văn bản kết hợp với các cơ chế song song hoá toàn cục và song song hoá cục bộ trong quá trình tóm tắt. Điểm này cũng được thể hiện trong các mô hình PESUM và CPESUM.

Luận án đề xuất sử dụng các mô hình gom cụm cục bộ trên các văn bản cùng chủ đề để nâng cao chất lượng bản tóm tắt đầu ra trong các mô hình tóm tắt rút trích dựa trên huấn luyện trước mô hình gom cụm. Điểm này được thực hiện trong mô hình CPESUM.

Luận án đề xuất kết hợp phương pháp giảm số lớp encoder-decoder với tối ưu số lượng token tối đa của văn bản đầu vào dựa trên tập dữ liệu. Tiếp cận này giúp cải thiện hiệu suất huấn luyện, tóm tắt và tối thiểu yêu cầu phần cứng cho mô hình tóm tắt tóm lược dựa trên mạng Transformer. Điểm này được thực hiện thông qua mô hình THASUM.

Luận án trình bày kết quả thực nghiệm tập VNText trên các mô hình tóm tắt văn bản hiện đại như Pointer, T5, Bart để so sánh với các mô hình được đề xuất trong luận án, song song đó cung cấp một góc nhìn về kết quả tóm tắt trên tập dữ liệu lớn văn bản Tiếng Việt theo các hướng tiếp cận khác nhau.

3. Các ứng dụng/khả năng ứng dụng trong thực tiễn, các vấn đề cần tiếp tục nghiên cứu

Các mô hình SKSUM, PESUM, CPESUM và THASUM có thể được sử dụng để minh họa trong giảng dạy máy học cho sinh viên đại học, cao học, làm nền tảng nghiên cứu cho các nghiên cứu sinh trong các lĩnh vực máy học.

Các mô hình vector ngữ nghĩa Word-to-vector, Glove và Fasttext được huấn luyện trên tập dữ liệu văn bản lớn Tiếng Việt VNText có thể được sử dụng để biểu diễn dữ liệu văn bản trong các nghiên cứu về văn bản như phân lớp, gom cụm hoặc tóm tắt tự động văn bản. Ngoài ra cũng có thể sử dụng trong các ứng dụng thực tiễn có liên quan.

Đầu ra của các mô hình tóm tắt có thể được sử dụng làm đầu vào cho các bài toán khai thác dữ liệu văn bản khác chẳng hạn như phân lớp dữ liệu, tạo caption tự động cho hình ảnh dựa trên văn bản, lập chỉ mục ngữ nghĩa cho văn bản.

Sử dụng kết quả tóm tắt trực tiếp trong các ứng dụng tóm tắt văn bản, trích xuất thông tin văn bản từ dữ liệu văn bản hoặc dữ liệu đa định dạng, chẳng hạn như văn bản và hình ảnh.

Đầu ra của các mô hình tóm tắt rút trích được đề xuất trong luận án phụ thuộc hoàn toàn vào câu văn có trong văn bản đầu vào, do đó cần nghiên cứu thêm các giải pháp để rút trích các thông tin tổng quát, toàn diện hơn từ văn bản chẳng hạn như kết hợp giữa trích câu và cụm từ.

Bên cạnh đó các mô hình tóm lược hiện đại chưa giải quyết triệt để vấn đề độ chính xác về mặt thông tin trong văn bản cũng như độ chính xác so với thông tin khách quan, đây là một trong các lĩnh vực nghiên cứu hấp dẫn nhiều tiềm năng.