PHÁT HIỆN TIN ĐỒN, TIN GIẢ TRÊN MẠNG XÃ HỘI
Trong xã hội hiện đại, với sự phát triển của Internet và các dịch vụ nhắn tin tức thời, tin giả đã tiếp cận được hàng triệu người và gây nên những tác động tiêu cực trong một khoảng thời gian rất ngắn. Theo Kapferer (năm 2011) định nghĩa “Tin đồn là một hình thức thông tin chưa được xác minh, được chia sẻ và truyền đi từ người này sang người khác, thường đi kèm với sự thay đổi và phóng đại. Chúng có thể phản ánh những lo âu trong xã hội và có thể ảnh hưởng đến ý kiến công chúng, tạo hình cho quan điểm về cá nhân, sự kiện và tình huống” [1].
Theo từ điển Oxford “Tin giả là thông tin sai sự thật được phát sóng hoặc xuất bản dưới dạng tin tức nhằm mục đích lừa đảo hoặc có động cơ chính trị. Tin giả tạo ra sự nhầm lẫn đáng kể của công chúng về các sự kiện hiện tại. Tin giả bùng nổ trên phương tiện truyền thông xã hội, đang xâm nhập vào các kênh truyền thông chính” [2].
Theo đó, có thể hiểu: “Phát hiện tin đồn, tin giả trên mạng xã hội là quá trình sử dụng các phương pháp và công cụ để xác định, kiểm chứng tính trung thực của thông tin được lan truyền qua các nền tảng truyền thông xã hội nhằm giảm thiểu tác động tiêu cực của chúng đối với cá nhân, cộng đồng và xã hội”.
Chỉ trong năm 2020, cơ quan chức năng đã xác định khoảng 100 hội nhóm trên mạng xã hội Facebook, 14.000 chuyên trang Facebook; hơn 80 kênh YouTube chống phá với tần suất cao, khoảng trên 54.000 video vi phạm thường xuyên tán phát tin giả có ảnh hưởng tới an ninh quốc gia, trật tự an toàn xã hội. Trong đó, xử phạt hành chính hơn 1.000 đối tượng có hoạt động đăng tải thông tin chưa chính xác về dịch Covid-19 [3].
Tin đồn, tin giả trên mạng xã hội có thể dẫn đến hậu quả nghiêm trọng như: tác động đến an ninh kinh tế, tác động đến an ninh quốc gia, tác động đến niềm tin của người dân với các thông tin trên báo chí chính thống… Có nhiều phương pháp được áp dụng để phát hiện tin đồn, tin giả trên mạng xã hội, nhưng chủ yếu vẫn dựa vào hai phương pháp chính là phát hiện thủ công và phát hiện tự động. Phương pháp thủ công sử dụng kiến thức và kỹ năng của con người để kiểm chứng thông tin, phân tích nguồn và đánh giá độ tin cậy của nội dung. Trong khi đó, phương pháp tự động tận dụng công nghệ hiện đại như trí tuệ nhân tạo để phân tích dữ liệu lớn, nhận diện các mẫu tin giả dựa trên hành vi và đặc điểm ngôn ngữ của các bài đăng.
CÁC NGHIÊN CỨU LIÊN QUAN VỀ PHÁT HIỆN TIN ĐỒN, TIN GIẢ
Bài viết tập trung khảo sát, đánh giá các nghiên cứu liên quan đến phát hiện tin đồn, tin giả bằng phương pháp tự động, bao gồm: A. Abd và M. Baykara [4], Prachi và cộng sự [5], Thota và cộng sự [6].
Trong nghiên cứu của A. Abd và M. Baykara, đã đề xuất phương pháp qua 3 giai đoạn: (i) giai đoạn tiền xử lý dữ liệu; (ii) giai đoạn trích xuất đặc trưng sử dụng một số kỹ thuật như: TF-IDF, N-gram, vector hóa theo mức ký tự (Character level vectorizer), vector hóa dựa trên tần suất từ (Count Vectorizer); (iii) giai đoạn phân loại sử dụng học máy và học sâu: Random forest (RF), K-nearest neighbor (K-NN), Linear support vector machine (LSVM), Recurrent Neural Network kết hợp Long Short-Term Memory (RNN+LSTM)…
Trong nghiên cứu của Prachi và cộng sự đã đề xuất phương pháp gồm 2 giai đoạn: (i) giai đoạn đầu tiên gồm tiền xử lý dữ liệu và trích xuất đặc trưng, bao gồm các bước: Loại bỏ dấu câu, Tách từ, Loại bỏ các từ dừng (Stopwords), Chuẩn hóa từ, Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên (NLP), Bag of Words (BoW) - biểu diễn mỗi văn bản dưới dạng tập hợp từ và số lần xuất hiện của chúng, bất kể thứ tự hay ngữ cảnh của từ trong câu; (ii) giai đoạn phân loại sử dụng học máy tương tự A. Abd và M. Baykara và kỹ thuật học sâu LSTM, BERT (cả 2 kỹ thuật đều mang tính động).
Trong nghiên cứu của Thota và cộng sự đã sử dụng bộ dữ liệu Fake News Challenge (FNC-1) đề xuất phương pháp qua 2 giai đoạn: (i) tiền xử lý dữ liệu và trích xuất đặc trưng sử dụng kỹ thuật Bag of Word và TF-IDF; (ii) giai đoạn phân loại sử dụng Dense Neural Network (DNN) và Neural Networks (bao gồm CNN và RNN).
Một số vấn đề của các nghiên cứu trên có thể kể đến như tập dữ liệu nhỏ, tập dữ liệu chỉ bao gồm một ngôn ngữ duy nhất hoặc độ chính xác chưa cao… Để giải quyết các vấn đề trên, bài viết trình bày mô hình phát hiện tin đồn, tin giả bằng các kết hợp tập dữ liệu tiếng Anh, tiếng Việt và kết hợp các mô hình học sâu BERT, PhoBERT, LSTM.
MÔ HÌNH PHÁT HIỆN TIN ĐỒN, TIN GIẢ TRÊN MẠNG XÃ HỘI SỬ DỤNG MÔ HÌNH HỌC SÂU
Mô hình đề xuất
Mô hình đề xuất phát hiện tin đồn, tin giả bao gồm hai giai đoạn: Huấn luyện và Phát hiện.
Bước 1: Thu thập dữ liệu huấn luyện. Việc thu thập sẽ tạo ra một bộ dữ liệu gồm cả tiếng Anh và tiếng Việt. Trong đó bộ dữ liệu tiếng Anh được thu thập tại github [7] và bộ dữ liệu tiếng Việt thu thập tại Reliable Intelligence Identification on Vietnamese SNSs (ReINTEL) [8]. Các tin thật được gán nhãn là 1, tin giả được gán nhãn là 0. Tất cả các tin trong bộ dữ liệu này đã được gán nhãn chính xác và sẵn sàng để sử dụng cho quá trình huấn luyện và đánh giá các giải pháp phát hiện tin đồn, tin giả trên mạng xã hội.
Bước 2: Tiền xử lý dữ liệu. Dữ liệu văn bản được chuyển về chữ thường, tiếp theo xóa dấu xuống dòng, xóa dấu câu trong đoạn văn.
Bước 3: Trích xuất đặc trưng. Sử dụng mô hình học sâu BERT và PhoBERT để chuyển đoạn văn sang vector đặc trưng.
Bước 4: Huấn luyện. Bước này sử dụng mô hình LSTM để huấn luyện và xây dựng bộ phân loại tin thật, giả.
Hình 1. Giai đoạn huấn luyện
Hình 2. Giai đoạn phát hiện
Giai đoạn phát hiện được minh họa trong Hình 2 cũng bao gồm 4 bước như sau:
Bước 1: Lấy liên kết bài viết trên trang mạng xã hội cần giám sát.
Bước 2: Tiền xử lý dữ liệu: Tin trên trang mạng xã hội được chuyển về chữ thường, xóa dấu xuống dòng, xóa dấu câu.
Bước 3: Trích xuất đặc trưng qua mô hình học sâu BERT và PhoBERT.
Bước 4: Phân loại. Các vector đặc trưng được phân loại bằng cách sử dụng bộ phân loại được xây dựng trong giai đoạn huấn luyện. Kết quả sẽ đưa ra tin trên trang mạng xã hội là tin thật hay tin giả.
Thu thập dữ liệu
Dữ liệu tiếng Anh: gồm 2 tập tin là “tin thật” và “tin giả”. Các nguồn tin được kiểm chứng như PolitiFact (tin chính trị) và GossipCop (tin giải trí). Mỗi tập dữ liệu có các trường thông tin: title, text, subject, date. Tổng 2 tập tin có 44.919 bản ghi.
Dữ liệu tiếng Việt: Dữ liệu thu thập này là một thử thách thuộc chương trình VLSP 2020, tập trung vào việc phân loại tin tức đáng tin cậy trên các mạng xã hội tại Việt Nam. Dữ liệu trong thử thách này bao gồm 9.730 bản ghi được gán nhãn “đáng tin cậy (1)” hoặc “không đáng tin cậy (0)”. Mỗi bản ghi bao gồm các trường thông tin: user_name, post_message, timestamp_post, num_like_post, num_comment_post, num_ share_post, label.
Sau khi kết hợp bộ dữ liệu tiếng Anh, tiếng Việt và loại bỏ các bản ghi trống, nhóm nghiên cứu thu được bộ dữ liệu có 53.558 bản ghi. Bộ dữ liệu sau đó được chia thành 64% dữ liệu được đưa vào huấn luyện (train), 20% dữ liệu dùng để đánh giá (test) và 16% dùng để xác thực (valid).
Cài đặt thử nghiệm
Đối với trích xuất đặc trưng văn bản, nhóm tác giả đề xuất hai mô hình là mô hình BERT sử dụng cấu trúc Transformer, đặc biệt là phần encoder, cho phép mô hình hiểu ngữ cảnh của từ trong câu bằng cách xem xét cả từ phía trước và sau. Mô hình thứ hai là PhoBERT là một mô hình xử lý ngôn ngữ tự nhiên được phát triển đặc biệt cho tiếng Việt, dựa trên kiến trúc BERT. Mô hình dùng để phân loại tin, nhóm tác giả đề xuất sử dụng LSTM cho phép nhớ thông tin lâu dài và dễ dàng hơn trong việc học từ các mẫu dữ liệu chuỗi phức tạp, giúp cải thiện đáng kể độ chính xác trong nhiều ứng dụng.
Đối với tập dữ liệu, nhóm tác giả thử nghiệm 2 kịch bản:
(i) kịch bản 1: bộ dữ liệu chỉ có tiếng Anh;
(ii) kịch bản 2: bộ dữ liệu có cả tiếng Anh và tiếng Việt.
Kết quả thử nghiệm
Để đánh giá độ chính xác cũng như khả năng hoạt động của mô hình đề xuất, nhóm tác giả sử dụng ma trận nhầm lẫn (Confusion Matrix).
Bảng 1. Kết quả mô hình phát hiện tin đồn, tin giả
Qua quá trình phân tích đánh giá kết quả nhận được, có thể đưa ra các nhận xét về quá trình cài đặt và thực nghiệm như sau: Hai kịch bản có độ chính xác tương đối cao và không có quá nhiều chênh lệch. Tuy nhiên với kịch bản 2 đã có thêm dữ liệu tiếng Việt, giúp việc phát hiện tin giả đa ngôn ngữ hơn, phù hợp với các nền tảng xã hội người Việt sử dụng.
KẾT LUẬN
Bài báo đề xuất mô hình phát hiện tin đồn, tin giả trên mạng xã hội với sự kết hợp giữa BERT, PhoBERT và LSTM, đồng thời kết hợp bộ dữ liệu tiếng Anh và tiếng Việt. Mô hình đề xuất cho kết quả độ chính xác cao hơn các nghiên cứu có liên quan. Trong tương lai, nhóm tác giả sẽ tiếp tục nghiên cứu cải tiến mô hình, thu thập, bổ sung, cập nhật bộ dữ liệu hiện có nhằm tiếp tục nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai, giảm yêu cầu sử dụng tài nguyên tính toán trong huấn luyện và đặc biệt trong khâu phát hiện để tăng khả năng ứng dụng trong thực tế, đồng thời cập nhật các tin tức mới nhất để mô hình dự đoán chính xác hơn.
TÀI LIỆU THAM KHẢO [1]. J.-N. Kapferer, Rumors: Uses, Interpretations, and Images. Transaction Publishers, 2011. [2]. “Oxford Learner’s Dictionaries | Find definitions, translations, and grammar explanations at Oxford Learner’s Dictionaries.”. Available: https://www.oxfordlearnersdictionaries.com/ [3]. Bộ Thông tin và Truyền thông, “Phòng, chống tin giả trên không gian mạng và cách nhận diện,” Cổng Thông tin điện tử Bộ Thông tin và Truyền thông. Available: https://mic.gov.vn/phong-chong-tin-gia-tren-khong-gian-mang-va-cach-nhandien-197147407.htm [4]. A. Abd and M. Baykara, “Fake News Detection Using Machine Learning and Deep Learning Algorithms,” Dec. 2020, pp. 18– 23. doi: 10.1109/ICOASE51841.2020.9436605. [5]. N. N. Prachi, Md. Habibullah, Md. E. H. Rafi, E. Alam, and R. Khan, “Detection of Fake News Using Machine Learning and Natural Language Processing Algorithms,” JAIT, vol. 13, no. 6, 2022, doi: 10.12720/jait.13.6.652-661. [6]. A. Thota, P. Tilak, S. Ahluwalia, and N. Lohia, “Fake News Detection: A Deep Learning Approach,” SMU Data Science Review, vol. 1, no. 3, Aug. 2018 . Available: https://scholar.smu.edu/datasciencereview/vol1/iss3/10 [7]. “Fake-News-Detection/Datasets at main · kapilsinghnegi/ Fake-News-Detection.”. Available: https://github.com/kapilsinghnegi/Fake-News-Detection/tree/main/Datasets [8]. “Reliable Intelligence Identification on Vietnamese SNSs (ReINTEL) | Association for Vietnamese Language and Speech Processing.”. Available: https://vlsp.org.vn/vlsp2020/eval/reintel |