Інформаційна технологія виявлення джерел дезінформації та неавтентичної поведінки користувачів чатів на основі методів NLP та машинного навчання
| dc.contributor.author | Висоцька, В. А. | |
| dc.contributor.author | Vysotska, V. | |
| dc.date.accessioned | 2025-12-26T09:26:51Z | |
| dc.date.available | 2025-12-26T09:26:51Z | |
| dc.date.issued | 2025 | |
| dc.description | Висоцька В. А. Інформаційна технологія виявлення джерел дезінформації та неавтентичної поведінки користувачів чатів на основі методів NLP та машинного навчання / В. А. Висоцька // Радіоелектроніка, інформатика, управління. – 2025. – № 3 (74). – C. 138-153. | |
| dc.description.abstract | UK: Актуальність. У сучасному цифровому середовищі поширення дезінформації та неавтентичної поведінки користувачів у чатах становить серйозну загрозу для суспільства. Методи опрацювання природної мови та машинного навчання пропонують ефективні підходи для виявлення та протидії таким загрозам. Метою дослідження є розробка інформаційної технології для автоматичного виявлення розповсюдження джерел україномовних фейкових новин та неавтентичної поведінки користувачів чатів, яка побудована за допомогою методів опрацювання природної мови та реалізована на основі технологій машинного навчання. Метод. Для реалізації проекту використано такі методи конструювання ознак, як статистичний показник TF-IDF, модель векторизації «Торба слів», розмічування частин мови. Для інших експериментів застосовані моделі векторизації FastText, W2V та Glove word2vec для отримання векторних представлень слів, а також розпізнавання тригерних слів (підсилюючі слова, абсолютні займенники та «блискучі» слова). Ідея полягає в знаходженні подібних за текстом/ значенням (lexical/ semantical) повідомлень, а також аналізі результатів поширення подібних повідомлень в часі та просторі. У якості основних алгоритмів моделювання використані Complement Naïve Bayes, Gaussian Naïve Bayes, HistGradientBoostingClassifier, Multinomial Naïve Bayes та RandomForest для виявлення джерел розповсюдження дезінформації та неавтентичної поведінки чатів. Результати. У даній статті розглядається розробка програмного забезпечення для виявлення пропагандистських повідомлень у соціальних мережах на основі аналізу текстових даних Twitter. Основна увага приділяється методам попередньої обробки текстів, векторизації даних та машинному навчанню для автоматичної класифікації повідомлень. Описано процес збору, підготовки та очищення даних, а також розглянуто різні підходи до навчання моделі та оцінки її ефективності. Проведено 9 експриментів для ріхних методів побереднього опрацювання даних, моделей векторизації та алгоритмів моделювання. Висновки. Створені моделі показує відмінні результати розпізнавання джерел розповсюдження пропаганди, фейків та дезінформації у соціальних мережах та онлайн засобах масової інформації. Найкращі результати на даний момент показує експеримент 5 на основні TF-IDF+ComplementNB. Високе значення recall для класу 1 (0,8) означає, що модель добре знаходить позитивні зразки, але для класу 0 вона менш ефективна (0,56). Відповідн овисоке значення precision для класу 1 (0,89) означає, що більшість зразків, передбачених як клас 1, є правильними. Низька точність для класу 0 (0,38) вказує на велику кількість помилкових передбачень. При цьому в серії проведених експериментів спостерігаються певні аномалії (зокрема в експерименті 7 на основі Glove+ RandomForest), які потребують подальшого дослідження. Отримані результати можуть бути використані для подальшого вдосконалення алгоритмів виявлення джерел розповсюдження дезінформації, неавтентичної поведінки чатів та шкідливого контенту для збільшення обороздатності країни. EN: Context. In the modern digital environment, the spread of disinformation and inauthentic behaviour of users in chat rooms poses a serious threat to society. Natural language processing and machine learning methods offer effective approaches to detecting and countering such threats. Objective of the study is to develop information technology for automatically detecting the spread of sources of Ukrainian-language fake news and inauthentic behaviour of chat users, which is built using natural language processing methods and implemented, based on machine learning technologies. Method. To implement the project, such feature construction methods as the TF-IDF statistical indicator, the Bag of Words vectorization model, and part-of-speech mark-up were used. For other experiments, the FastText, W2V, and Glove word2vec vectorization models were used to obtain vector representations of words, as well as to recognize trigger words (reinforcing words, absolute pronouns, and “shiny” words). The idea is to find similar messages in terms of text/meaning (lexical/semantical), as well as analyse the results of the distribution of similar messages in time and space. Complement Naïve Bayes, Gaussian Naïve Bayes, HistGradientBoostingClassifier, MultinomialNB and Random Forest were used as the main modelling algorithms to identify sources of disinformation and inauthentic chat behavior. Results. This article discusses the development of software for detecting propaganda messages in social networks based on the analysis of Twitter text data. The main attention is paid to the methods of text pre-processing, data vectorization and machine learning for message classification. The process of collecting, preparing and cleaning data is described, and various approaches to training the model and evaluating its effectiveness are considered. 9 experiments were conducted for the selected methods of post-processing data, vectorization models and modelling algorithms. Conclusions. The created models show excellent results in recognizing sources of propaganda, fakes and disinformation in social networks and online media. The best results so far are shown by experiment 5 on the main TF-IDF + Complement Naïve Bayes. The high recall value for class 1 (0.8) means that the model finds positive samples well, but for class 0 it is less effective (0.56). The correspondingly high precision value for class 1 (0.89) means that most of the samples predicted as class 1 are correct. The low precision for class 0 (0.38) indicates a large number of false predictions. At the same time, certain anomalies are observed in the series of experiments (in particular, in experiment 7 based on Glove + Random Forest), which require further research. The results obtained can be used to further improve the algorithms for detecting sources of disinformation, inauthentic chat behaviour and malicious content to increase the country’s transparency. | |
| dc.identifier.uri | https://eir.zp.edu.ua/handle/123456789/25715 | |
| dc.language.iso | uk | |
| dc.publisher | Національний університет «Запорізька політехніка» | |
| dc.subject | дезінформація, джерело дезінформації, шлях розповсюдження дезінформації, мережа розповсюдження дезінформації, фейк, пропаганда, опрацювання природньої мови | |
| dc.subject | disinformation, source of disinformation, way of disinformation dissemination, disinformation dissemination network, fake, propaganda, natural language processing, stylistic analysis | |
| dc.title | Інформаційна технологія виявлення джерел дезінформації та неавтентичної поведінки користувачів чатів на основі методів NLP та машинного навчання | |
| dc.title.alternative | Information technology for detection of disinformation sources and inauthentical behavior of chat users based on nlp and machine learning methods | |
| dc.type | Article |