Технологія ідентифікації рерайту в текстовому контенті на основі методів машинного навчання
| dc.contributor.author | Холодна, Н. M. | |
| dc.contributor.author | Висоцька, В. А. | |
| dc.contributor.author | Kholodna, N. | |
| dc.contributor.author | Vysotska, V. | |
| dc.date.accessioned | 2026-02-06T12:03:59Z | |
| dc.date.available | 2026-02-06T12:03:59Z | |
| dc.date.issued | 2022 | |
| dc.description | Холодна Н. М. Технологія ідентифікації рерайту в текстовому контенті на основі методів машинного навчання / Н. М. Холодна, В. А. Висоцька // Радіоелектроніка, інформатика, управління. – 2022. – № 4 (63). – C. 126-148. | |
| dc.description.abstract | UK: Актуальність. Перефразований текстовий контенту або рерайт є однією із складних проблем виявлення академічного плагіату. Більшість систем ідентифікації плагіату призначені для виявлення спільних слів, послідовності лінгвістичних одиниць та незначних змін, але не здатні виявити суттєві семантичні та структурні зміни. Тому більшість випадків плагіату із застосуванням перефразування залишаються непоміченими. Мета – розроблення технології виявлення перефразувань у тексті на основі моделі класифікації та методів машинного навчання через використання сіамської нейронної мережі на основі рекурентних та типу Transformer – RoBERTa для аналізу рівня подібності речень текстового контенту. Метод. Для даного дослідження у якості ознак обрані такі метрики семантичної подібності або показники: коефіцієнт Жаккара для спільних N-грам, косинусна відстань між векторними поданнями речень, Word Mover’s Distance, відстані за словниками WordNet, передбачення двох ML-моделей: сіамської нейронної мережі на основі рекурентних та типу Transformer – RoBERTa. Результати. Розроблено інтелектуальну систему виявлення перефразувань у тексті на основі моделі класифікації та методів машинного навчання. Розроблена система використовує принцип стекінгу моделей і інжиніринг ознак (feature engineering). Додаткові ознаки вказують на семантичну приналежність речень або нормовану кількість спільних N-грам. Додатково налаштована (fine-tuned) нейронної мережі RoBERTa (із додатковими повнозв’язними шарами) має меншу чутливість до пар речень, що не є перефразуваннями один одного. Така специфічність моделі може сприяти неправильному звинуваченню у плагіаті або некоректному об’єднанню згенерованого користувачами контенту. Додаткові ознаки збільшують як загальну точність класифікації, так і чутливість моделі до пар тих речень, що не є перефразуваннями один одного. Висновки. Створена модель показує відмінні результати класифікації на тестових даних PAWS: зважена влучність (precision) – 93%, зважена повнота (recall) – 92%, F-міра (F1-score)–92%, точність (accuracy) – 92%. Результати дослідження показали, що NN типу Transformer можуть бути успішно застосовані для виявлення перефразувань у парі текстів із досить високою точністю без потреби додаткового генерування ознак. EN: Context. Paraphrased textual content or rewriting is one of the difficult problems of detecting academic plagiarism. Most plagiarism detection systems are designed to detect common words, sequences of linguistic units, and minor changes, but are unable to detect significant semantic and structural changes. Therefore, most cases of plagiarism using paraphrasing remain unnoticed. Objective of the study is to develop a technology for detecting paraphrasing in text based on a classification model and machine learning methods through the use of Siamese neural network based on recurrent and Transformer type – RoBERTa to analyze the level of similarity of sentences of text content. Method. For this study, the following semantic similarity metrics or indicators were chosen as features: Jacquard coefficient for shared N-grams, cosine distance between vector representations of sentences, Word Mover’s Distance, distances according to WordNet dictionaries, prediction of two ML models: Siamese neural network based on recurrent and Transformer type - RoBERTa. Results. An intelligent system for detecting paraphrasing in text based on a classification model and machine learning methods has been developed. The developed system uses the principle of model stacking and feature engineering. Additional features indicate the semantic affiliation of the sentences or the normalized number of common N-grams. An additional fine-tuned RoBERTa neural network (with additional fully connected layers) is less sensitive to pairs of sentences that are not paraphrases of each other. This specificity of the model may contribute to incorrect accusations of plagiarism or incorrect association of user-generated content. Additional features increase both the overall classification accuracy and the model’s sensitivity to pairs of sentences that are not paraphrases of each other. Conclusions. The created model shows excellent classification results on PAWS test data: precision – 93%, recall – 92%, F1-score – 92%, accuracy – 92%. The results of the study showed that Transformer-type NNs can be successfully applied to detect paraphrasing in a pair of texts with fairly high accuracy without the need for additional feature generation. | |
| dc.identifier.uri | https://eir.zp.edu.ua/handle/123456789/26653 | |
| dc.language.iso | uk | |
| dc.publisher | Національний університет "Запорізька політехніка" | |
| dc.subject | опрацювання природної мови | |
| dc.subject | ідентифікація рерайту | |
| dc.subject | виявлення перефразувань у тексті | |
| dc.subject | машинне навчання з вчителем | |
| dc.subject | глибинне навчання | |
| dc.subject | класифікація тексту | |
| dc.subject | аналіз тексту | |
| dc.subject | векторне вкладення слів | |
| dc.subject | WordNet | |
| dc.subject | семантична подібність | |
| dc.subject | natural language processing | |
| dc.subject | NLP | |
| dc.subject | rewrite identification | |
| dc.subject | detection of paraphrasing in text | |
| dc.subject | supervised machine learning | |
| dc.subject | deep learning | |
| dc.subject | text classification | |
| dc.subject | text analysis | |
| dc.subject | word embeddings | |
| dc.subject | WordNet | |
| dc.subject | semantic similarity | |
| dc.title | Технологія ідентифікації рерайту в текстовому контенті на основі методів машинного навчання | |
| dc.title.alternative | Rewriting identification technology for text content based on machine learning methods | |
| dc.type | Article |