Обробка текстових даних соціальних медіа на природній мові за допомогою BERT та XGBoost

Батюк, T. M.; Досин, Д. Г.; Batiuk, T.; Dosyn, D.

Обробка текстових даних соціальних медіа на природній мові за допомогою BERT та XGBoost

dc.contributor.author	Батюк, T. M.
dc.contributor.author	Досин, Д. Г.
dc.contributor.author	Batiuk, T.
dc.contributor.author	Dosyn, D.
dc.date.accessioned	2025-12-22T09:21:52Z
dc.date.available	2025-12-22T09:21:52Z
dc.date.issued	2025
dc.description	Батюк T. M. Обробка текстових даних соціальних медіа на природній мові за допомогою BERT та XGBoost / T. M. Батюк, Д. Г. Досин // Радіоелектроніка, інформатика, управління. – 2025. – № 2 (73). – C. 154-167.
dc.description.abstract	UK: Актуальність. Зростання обсягу текстових даних у соціальних мережах вимагає розробки ефективних методів аналізу настроїв, здатних враховувати як лексичні, так і контекстуальні залежності. Традиційні підходи до обробки тексту мають обмеження у розумінні семантичних зв’язків між словами, що впливає на точність класифікації. Інтеграція глибоких нейронних мереж для векторизації тексту з ансамблевими алгоритмами машинного навчання та методами інтерпретації результатів дозволяє покращити якість аналізу настроїв. Метою дослідження є розробка та оцінка нового підходу до класифікації настроїв текстових повідомлень, що поєднує Sentence-BERT для глибокої семантичної векторизації, XGBoost для високоточної класифікації, SHAP для пояснення внеску ознак, sentence embedding similarity для оцінки семантичної подібності та λ-регуляризацію для покращення узагальнюючої здатності моделі. Дослідження спрямоване на аналіз впливу цих методів на якість класифікації, визначення найбільш значущих ознак та оптимізацію параметрів для забезпечення балансу між точністю та інтерпретованістю моделі. Метод. У дослідженні використовується Sentence-BERT для перетворення текстових даних у векторний простір із глибокими семантичними зв’язками. Для класифікації настроїв застосовується XGBoost, який забезпечує високу точність та стабільність навіть на нерівномірно розподілених наборах даних. Для пояснення внеску ознак використано метод SHAP, що дозволяє визначити, які фактори найбільше впливають на прогноз. Додатково використовується sentence embedding similarity для порівняння текстів за семантичною подібністю, а λ-регуляризація оптимізує баланс між узагальненням та точністю моделі. Результати. Запропонований підхід демонструє високу ефективність у задачах класифікації настроїв. Значення ROC-AUC підтверджує здатність моделі точно розрізняти класи емоційного забарвлення тексту. Використання SHAP забезпечує інтерпретованість результатів, дозволяючи пояснити вплив кожної ознаки на класифікацію. Sentence embedding similarity підтверджує ефективність Sentence-BERT у виявленні семантично подібних текстів, а λ-регуляризація покращує узагальнюючу здатність моделі. Висновки. Дослідження демонструє наукову новизну через комплексне поєднання Sentence-BERT, XGBoost, SHAP, sentence embedding similarity та λ-регуляризації для покращення точності та інтерпретованості аналізу настроїв. Отримані результати підтверджують ефективність запропонованого підходу, що робить його перспективним для застосування у моніторингу громадської думки, автоматизованій модерації контенту та персоналізованих рекомендаційних системах. Подальші дослідження можуть бути спрямовані на адаптацію моделі до специфічних доменів, розширення джерел текстових даних та вдосконал EN: Context The growth of text data in social networks requires the development of effective methods for sentiment analysis that can take into account both lexical and contextual dependencies. Traditional approaches to text processing have limitations in understanding semantic relationships between words, which affects the accuracy of classification. The integration of deep neural networks for text vectorization with ensemble machine learning algorithms and methods for interpreting results allows improving the quality of sentiment analysis. Objective. The aim of the study is to develop and evaluate a new approach to text message sentiment classification that combines Sentence-BERT for deep semantic vectorization, XGBoost for high-accuracy classification, SHAP for explaining the contribution of features, sentence embedding similarity for assessing semantic similarity, and λ-regularization to improve the generalization ability of the model. The study is aimed at analyzing the impact of these methods on the quality of classification, identifying the most significant features and optimizing parameters. Method. The study uses Sentence-BERT to transform text data into a vector space with deep semantic connections. XGBoost is used for sentiment classification, which provides high accuracy and stability even on unevenly distributed datasets. The SHAP method is used to explain the contribution of features, which allows us to determine which factors have the greatest impact on the prediction. Additionally, sentence embedding similarity is used to compare texts. Results. The proposed approach demonstrates high efficiency in mood classification tasks. The ROC-AUC value confirms the ability of the model to accurately distinguish between classes of emotional coloring of the text. The use of SHAP ensures the interpretability of the results, allowing us to explain the influence of each feature on the classification. Sentence embedding similarity confirms the efficiency of Sentence-BERT in detecting semantically similar texts, and λ-regularization improves the generalization ability of the model. Conclusions. The study demonstrates scientific novelty through a comprehensive combination of Sentence-BERT, XGBoost, SHAP, sentence embedding similarity, and λ-regularization to improve the accuracy and interpretability of sentiment analysis. The results obtained confirm the effectiveness of the proposed approach, which makes it promising for application in public opinion monitoring, automated content moderation, and personalized recommendation systems. Further research can be aimed at adapting the model to specific domains and improving interpretation methods.
dc.identifier.uri	https://eir.zp.edu.ua/handle/123456789/25594
dc.language.iso	uk
dc.publisher	Національний університет «Запорізька політехніка»
dc.subject	машинне навчання, нормалізація ознак, трансформери, матриця плутанини, Sentence-BERT, класифікація текстових даних
dc.subject	machine learning, feature normalization, transformers, confusion matrix, Sentence-BERT, text data classification
dc.title	Обробка текстових даних соціальних медіа на природній мові за допомогою BERT та XGBoost
dc.title.alternative	Natural Language Processing of Social Media Text Data Using BERT and XGBoost
dc.type	Article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: S_154 Batiuk.pdf
Size:: 1.28 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Радіоелектроніка, інформатика, управління - 2025, №2 (73)