Інформаційна технологія розпізнавання пропаганди, фейків та дезінформації у текстовому контенті на основі методів NLP та машинного навчання

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Національний університет «Запорізька політехніка»

Abstract

UK: Актуальність. Дослідження спрямоване на застосування штучного інтелекту для розроблення та вдосконалення засобів кіберборотьби, зокрема для боротьби з дезінформацією, фейками та пропагандою в Інтернет-просторі, виявлення джерел дезінформації та неавтентичної поведінки (боти) скоординованих груп. Реалізація проекту сприятиме вирішенню важливого та актуального у наш час питання інформаційної маніпуляції у медіа, адже для ефективної боротьби із викривленням та дезінформацією необхідно отримати ефективний інструмент розпізнання цих явищ у текстових даних для вироблення подальшої стратегії запобігання розповсюдження таких даних. Метою дослідження є розробка інформаційної технології для автоматичного розпізнавання політичної пропаганди у текстових даних, яка побудована на основі машинного навчання з учителем та реалізована за допомогою методів опрацювання природної мови. Метод. Розпізнання наявності пропаганди відбуватиметься на двох рівнях: на загальному рівні, тобто рівні документу, та на рівні окремих речень. Для реалізації проекту використано такі методи конструювання ознак, як статистичний показник TF-IDF, модель векторизації «Торба слів», розмічування частин мови, моделі word2vec для отримання векторних представлень слів, а також розпізнавання тригерних слів (підсилюючі слова, абсолютні займенники та «блискучі» слова). У якості основного алгоритму моделювання використана логістична регресія. Результати. Розроблено моделі машинного навчання для розпізнавання пропаганди, фейків та дезінформації на рівні документу (статті) та на рівні речень. Обидві оцінки моделі є задовільними, проте модель для розпізнання пропаганди на рівні документу впоралася в майже 1,2 разів краще (на 20%). Висновки. Створені моделі показує відмінні результати розпізнавання пропаганди, фейків та дезінформації у текстовому контенті на основі методів NLP та машинного навчання. Аналіз вихідних даних показав, що моделі розпізнання пропаганди на рівні документу (статті) вдалося коректно класифікувати 6097 не пропагандистських статей та 694 статті пропагандистського характеру. 123 пропагандистські статті та 285 не пропагандистських статей були класифіковані невірно. Отримана оцінка моделі: 0,9433254618697041. Модель розпізнання пропаганди на рівні речень успішно класифікувала 1917 не пропагандистських статей та 205 пропагандистських статей, проте 585 пропагандистських статей та 146 не пропагандистських статей були класифіковані невірно. Оцінка моделі становить: 0,7437784787942516. EN: Context. The research is aimed at the application of artificial intelligence for the development and improvement of means of cyber warfare, in particular for combating disinformation, fakes and propaganda in the Internet space, identifying sources of disinformation and inauthentic behavior (bots) of coordinated groups. The implementation of the project will contribute to solving the important and currently relevant issue of information manipulation in the media, because in order to effectively fight against distortion and disinformation, it is necessary to obtain an effective tool for recognizing these phenomena in textual data in order to develop a further strategy to prevent the spread of such data. Objective of the study is to develop or automatic recognition of political propaganda in textual data, which is built on the basis of machine learning with a teacher and implemented using natural language processing methods. Method. Recognition of the presence of propaganda will occur at two levels: at the general level, that is, at the level of the document, and at the level of individual sentences. To implement the project, such feature construction methods as the TF-IDF statistical indicator, the “Bag of Words” vectorization model, the marking of parts of speech, the word2vec model for obtaining vector representations of words, as well as the recognition of trigger words (reinforcing words, absolute pronouns and “shiny” words). Logistic regression was used as the main modeling algorithm. Results. Machine learning models have been developed to recognize propaganda, fakes and disinformation at the document (article) and sentence level. Both model scores are satisfactory, but the model for document-level propaganda recognition performed almost 1.2 times better (by 20%). Conclusions. The created model shows excellent results in recognizing propaganda, fakes and disinformation in textual content based on NLP and machine learning methods. The analysis of the raw data showed that the propaganda recognition model at the document (article) level was able to correctly classify 6097 non-propaganda articles and 694 propaganda articles. 123 propaganda articles and 285 non-propaganda articles were misclassified. The obtained estimate of the model: 0.9433254618697041. The sentence-level propaganda recognition model successfully classified 205 propaganda articles and 1917 non-propaganda articles. The model score is: 0.7437784787942516 (but 731 articles were incorrectly classified).

Description

Висоцька В. А. Інформаційна технологія розпізнавання пропаганди, фейків та дезінформації у текстовому контенті на основі методів NLP та машинного навчання / В. А. Висоцька // Радіоелектроніка, інформатика, управління. – 2024. – № 2 (69). – C. 126-141.

Citation