Luận án: Đánh giá mức độ giống nhau của văn bản tiếng Việt Lưu

Luận án: Đánh giá mức độ giống nhau của văn bản tiếng Việt

Danh mục: , Người đăng: Minh Tính 2 Nhà xuất bản: Tác giả: Ngôn ngữ: Tiếng Việt, Tiếng Anh Định dạng: , Lượt xem: 36 lượt Lượt tải: 0 lượt
Tài liệu, tư liệu này được chúng tôi sưu tầm từ nhiều nguồn và được chia sẻ với mục đích tham khảo, các bạn đọc nghiên cứu và muốn trích lục lại nội dung xin hãy liên hệ Tác giả, bản quyền và nội dung tài liệu thuộc về Tác Giả & Cơ sở Giáo dục, Xin cảm ơn !

Nội dung

ĐÓNG GÓP MỚI CỦA LUẬN ÁN

Tên đề tài: ĐÁNH GIÁ MỨC ĐỘ GIỐNG NHAU CỦA VĂN BẢN TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 62 48 01 01

Họ và tên NCS: Hồ Phan Hiếu

Khóa: K29 năm 2014

Người hướng dẫn khoa học:

1. PGS.TS. Võ Trung Hùng

2. TS. Nguyễn Thị Ngọc Anh

Cơ sở đào tạo: Đại học Đà Nẵng

NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN

1. Đề xuất cải tiến mô hình vector sử dụng độ đo Cosine để tính toán độ tương tự văn bản dựa trên đơn vị từ và câu.

2. Đề xuất được cách tiếp cận mới để đánh giá mức độ giống nhau của văn bản gồm phương pháp biểu diễn văn bản thành các chuỗi số thực DNA và ứng dụng phương pháp DWT và bộ lọc Haar.

3. Đề xuất quy trình xử lý, xây dựng thuật toán phát hiện sự giống nhau giữa các văn bản bằng cách tính toán khoảng cách Euclid nhỏ nhất từ DNA cần đánh giá đến các DNA nguồn và so sánh với một mức ngưỡng thích hợp để đưa ra kết luận về sự giống nhau.

4. Đề xuất được các giải pháp, thuật toán để xử lý dữ liệu lớn hiệu quả với việc mã hóa dữ liệu văn bản sang dạng tín hiệu số thông qua các chuỗi DNA được sắp xếp theo thứ tự tăng dần cho phép tìm kiếm nhị phân.

5. Xây dựng các bộ dữ liệu tiếng Việt để thực nghiệm, xây dựng hệ thống phát hiện sao chép văn bản và triển khai ứng dụng thử nghiệm tại Đại học Đà Nẵng mang ý nghĩa thực tiễn cao.

NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN

1. Tôi đề xuất một mô hình dựa trên vectơ cải tiến bằng cách sử dụng phép đo Cosine để tính toán độ tương đồng của văn bản, cùng với từ và câu.

2. Tôi đề xuất một cách tiếp cận mới để đánh giá mức độ tương đồng của các tài liệu bao gồm trình tự DNA của văn bản dưới dạng số thực và ứng dụng bộ lọc Haar.

3. Tôi đề xuất quy trình xử lý, xây dựng thuật toán để phát hiện sự tương đồng giữa các tài liệu bằng cách tính khoảng cách Euclidean nhỏ nhất từ ​​DNA cần đánh giá đến DNA nguồn và so sánh với ngưỡng thích hợp để đưa ra kết luận về sự tương đồng.

4. Tôi đề xuất các giải pháp và thuật toán để xử lý dữ liệu lớn một cách hiệu quả bằng cách mã hóa dữ liệu văn bản thành tín hiệu số thông qua trình tự DNA được sắp xếp theo thứ tự tăng dần để tìm kiếm nhị phân.

5. Tôi xây dựng bộ dữ liệu tiếng Việt để thử nghiệm, cũng như hệ thống sao chép hệ thống, sau đó triển khai các ứng dụng thử nghiệm tại Đại học Đà Nẵng.

Từ khóa:

Tải tài liệu

1.

Luận án: Đánh giá mức độ giống nhau của văn bản tiếng Việt

.zip

Có thể bạn quan tâm