Multitopic text clustering and cluster labeling using contextualized word embeddings
| dc.contributor.author | Ostapiuk, Z. V. | |
| dc.contributor.author | Korotyeyeva, T. O. | |
| dc.contributor.author | Остапюк, З. В. | |
| dc.contributor.author | Коротєєва, Т. О. | |
| dc.date.accessioned | 2026-03-17T09:28:38Z | |
| dc.date.available | 2026-03-17T09:28:38Z | |
| dc.date.issued | 2020 | |
| dc.description | Ostapiuk Z. V. Multitopic text clustering and cluster labeling using contextualized word embeddings / Z. V. Ostapiuk, T. O. Korotyeyeva // Радіоелектроніка, інформатика, управління. – 2020. – № 4 (55). – C. 95-105. | |
| dc.description.abstract | EN: Context. In the current information era, the problem of analyzing large volumes of unlabeled textual data and its further grouping with respect to the semantic similarity between texts is emerging. This raises the need for robust text analysis algorithms, namely, clustering and extraction of key data from texts. Despite recent progress in the field of natural language processing, new neural methods lack interpretability when used for unsupervised tasks, whereas traditional distributed semantics and word counting techniques tend to disregard contextual information. Objective. The objective of the study is to develop an interpretable text clustering and cluster labeling methods with respect to the semantic similarity that require no additional training on the user’s dataset. Method. To approach the task of text clustering, we incorporate deep contextualized word embeddings and analyze their evolution through layers of pretrained transformer models. Given word embeddings, we look for similar tokens across all corpus and form topics that are present in multiple sentences. We merge topics so that sentences that share many topics are assigned to one cluster. One sentence can contain a few topics, it can be present in more then one cluster simultaneously. Similarly, to generate labels for the existing cluster, we use token embeddings to order them based on how much they are descriptive of the cluster. To do so, we propose a novel metric – token rank measure and evaluate two other metrics. Results. A new unsupervised text clustering approach was described and implemented. It is capable of assigning a text to different clusters based on semantic similarity to other texts in the group. A keyword extraction approach was developed and applied in both text clustering and cluster labeling tasks. Obtained clusters are annotated and can be interpreted through the terms that formed the clusters. Conclusions. Evaluation on different datasets demonstrated applicability, relevance, and interpretability of the obtained results. The advantages and possible improvements to the proposed methods were described. Recommendations for using methods were provided, as well as possible modifications. UK: Актуальність. У сучасній інформаційній ері все частіше виникає проблема аналізу великих обсягів текстових даних та їх групування із урахуванням семантичної схожості. Як результат, збільшується необхідність в надійних алгоритмах аналізу тексту, а саме – для кластеризації та виокремлення ключових слів із текстових даних. Незважаючи на недавній прогрес у галузі опрацювання мови, результати нових нейронних методів складно інтерпретувати при використанні для завдання кластеризації, тоді як традиційні методи розподіленої семантики та підрахунку слів, як правило, не враховують контекстну інформацію. Метою роботи є розробити методи кластеризації тексту, результати яких можна легко інтерпретувати, та анотації кластерів із врахуванням семантичної подібності, які не потребують додаткового навчання на наборах даних користувача. Метод. Щоб вирішити завдання кластеризації тексту, ми використовуємо контекстуалізовані слова-вектори та аналізуємо їх еволюцію між шарами попередньо натренованих моделей трансформерів. Ми шукаємо схожі лексеми у всьому корпусі за допомогою слів-векторів та формуємо теми, які можуть бути присутні у кількох реченнях. Ми об’єднуємо теми так, що речення, які поділяють багато тем, присвоюються одному кластеру. Оскільки одне речення може містити декілька тем, воно може бути присутнім у кількох кластерах одночасно. Аналогічно, для створення анотацій для існуючого кластера ми використовуємо слова-вектори, щоб упорядкувати слова залежно від того, наскільки добре вони описують кластер. Для цього ми пропонуємо нову міру відповідності кластеру – ранг слова. Результати. Описано та реалізовано новий підхід кластеризації тексту. Він здатний віднести один текст до одного та більше кластерів на основі семантичної подібності з іншими текстами групи. Розроблено та застосовано підхід до виокремлення ключових слів як для кластеризації тексту, так і для завдання анотації кластерів. Отримані кластери анотовані та можуть бути інтерпретовані через терміни, з яких сформовані відповідні теми. Висновки. Оцінка на різних наборах даних продемонструвала застосовність, відповідність та легкість інтерпретації отриманих результатів. Описано переваги та можливості вдосконалення запропонованих методів. Були надані рекомендації щодо використання методів, а також можливі їх модифікації. | |
| dc.identifier.uri | https://eir.zp.edu.ua/handle/123456789/27533 | |
| dc.language.iso | en | |
| dc.publisher | Національний університет "Запорізька політехніка" | |
| dc.subject | NLP | |
| dc.subject | word embedding | |
| dc.subject | text clustering | |
| dc.subject | cluster labeling | |
| dc.subject | BERT | |
| dc.subject | keyword extraction | |
| dc.subject | semantic similarity | |
| dc.subject | NLP | |
| dc.subject | слова-вектори | |
| dc.subject | кластеризація тексту | |
| dc.subject | анотування кластерів | |
| dc.subject | BERT | |
| dc.subject | виокремлення ключових слів | |
| dc.subject | семантична схожість | |
| dc.title | Multitopic text clustering and cluster labeling using contextualized word embeddings | |
| dc.title.alternative | Кластеризація текстів із виокремленням тем та анотація кластерів за допомогою контекстуальних слів-векторів | |
| dc.type | Article |