tóm tắt văn bản tự động

Công cụ tóm tắt văn bản tự động trên trình duyệt internet

Tìm kiếm trên mạng cho một chủ đề cụ thể là rất phổ biến trên thế giới ngày nay. Thông tin về mọi thứ có thể nhận được chỉ bằng cách nhấp vào nút. Tuy nhiên, không phải lúc nào chúng ta cũng có thể nhận được thông tin chính xác trực tiếp từ công cụ tìm kiếm. Chúng ta vẫn cần đọc qua các đoạn nhỏ dưới mỗi liên kết để có thể biết nó thực sự là gì. Những đoạn nhỏ này thực sự là tóm tắt của chính bài báo. Có hàng tỷ dữ liệu có sẵn trên internet và thậm chí hàng triệu lượt tải lên mỗi ngày, do đó, phải tóm tắt các bài viết theo cách thủ công là một công việc thực sự tẻ nhạt. Người ta muốn đưa ra một bản tóm tắt ngắn gọn về bài viết thực tế, nhưng có rất nhiều trường hợp liên quan đến các bản tóm tắt như vậy có sẵn.

resoomer

Các bộ máy tìm kiếm sử dụng các công cụ để tự động tóm tắt văn bản để tạo ra các bản tóm tắt súc tích cho các tài liệu dài. Tóm tắt là một hệ thống trích xuất các cụm từ và câu từ một văn bản và sắp xếp lại chúng theo cách phù hợp và dễ đọc tương ứng với ý nghĩa của tài liệu. Điều này dẫn đến một văn bản ngắn hơn nhiều so với tài liệu gốc. Đây là hệ thống được sử dụng bởi máy tính để hiểu ngôn ngữ của con người.

Hai cách tiếp cận chính để tóm tắt tự động là:

  1. Phương pháp trích xuất
  2. Phương pháp trừu tượng

Các phạm vi tóm tắt văn bản được phân loại theo loại đầu vào (tài liệu đơn hoặc nhiều tài liệu), mục đích của nó (chung), tên miền cụ thể, dựa trên truy vấn và loại đầu ra (đầu ra trích xuất hoặc đầu ra trừu tượng).

Phương pháp tóm tắt văn bản khai thác chọn các cụm từ và câu từ một tài liệu để thực hiện một bản tóm tắt mới. Các kỹ thuật của nó là chọn thứ thiết yếu nhất cho tài liệu nguồn bằng hệ thống xếp hạng.

Phương pháp tóm tắt văn bản trừu tượng tạo ra các câu và cụm từ mới phản ánh ý nghĩa của tài liệu gốc. Nó đòi hỏi khắt khe hơn và kết quả của nó chân thực hơn vì cuối cùng nó được con người sử dụng. Kỹ thuật của nó chọn và nén nội dung tài liệu nguồn và cũng có thể có các từ vắng mặt trong văn bản nguồn.