Multitopic text clustering and cluster labeling using contextualized word embeddings

Ostapiuk, Z. V.; Korotyeyeva, T. O.; Остапюк, З. В.; Коротєєва, Т. О.

Multitopic text clustering and cluster labeling using contextualized word embeddings

dc.contributor.author	Ostapiuk, Z. V.
dc.contributor.author	Korotyeyeva, T. O.
dc.contributor.author	Остапюк, З. В.
dc.contributor.author	Коротєєва, Т. О.
dc.date.accessioned	2026-03-17T09:28:38Z
dc.date.available	2026-03-17T09:28:38Z
dc.date.issued	2020
dc.description	Ostapiuk Z. V. Multitopic text clustering and cluster labeling using contextualized word embeddings / Z. V. Ostapiuk, T. O. Korotyeyeva // Радіоелектроніка, інформатика, управління. – 2020. – № 4 (55). – C. 95-105.
dc.description.abstract	EN: Context. In the current information era, the problem of analyzing large volumes of unlabeled textual data and its further grouping with respect to the semantic similarity between texts is emerging. This raises the need for robust text analysis algorithms, namely, clustering and extraction of key data from texts. Despite recent progress in the field of natural language processing, new neural methods lack interpretability when used for unsupervised tasks, whereas traditional distributed semantics and word counting techniques tend to disregard contextual information. Objective. The objective of the study is to develop an interpretable text clustering and cluster labeling methods with respect to the semantic similarity that require no additional training on the user’s dataset. Method. To approach the task of text clustering, we incorporate deep contextualized word embeddings and analyze their evolution through layers of pretrained transformer models. Given word embeddings, we look for similar tokens across all corpus and form topics that are present in multiple sentences. We merge topics so that sentences that share many topics are assigned to one cluster. One sentence can contain a few topics, it can be present in more then one cluster simultaneously. Similarly, to generate labels for the existing cluster, we use token embeddings to order them based on how much they are descriptive of the cluster. To do so, we propose a novel metric – token rank measure and evaluate two other metrics. Results. A new unsupervised text clustering approach was described and implemented. It is capable of assigning a text to different clusters based on semantic similarity to other texts in the group. A keyword extraction approach was developed and applied in both text clustering and cluster labeling tasks. Obtained clusters are annotated and can be interpreted through the terms that formed the clusters. Conclusions. Evaluation on different datasets demonstrated applicability, relevance, and interpretability of the obtained results. The advantages and possible improvements to the proposed methods were described. Recommendations for using methods were provided, as well as possible modifications. UK: Актуальність. У сучасній інформаційній ері все частіше виникає проблема аналізу великих обсягів текстових даних та їх групування із урахуванням семантичної схожості. Як результат, збільшується необхідність в надійних алгоритмах аналізу тексту, а саме – для кластеризації та виокремлення ключових слів із текстових даних. Незважаючи на недавній прогрес у галузі опрацювання мови, результати нових нейронних методів складно інтерпретувати при використанні для завдання кластеризації, тоді як традиційні методи розподіленої семантики та підрахунку слів, як правило, не враховують контекстну інформацію. Метою роботи є розробити методи кластеризації тексту, результати яких можна легко інтерпретувати, та анотації кластерів із врахуванням семантичної подібності, які не потребують додаткового навчання на наборах даних користувача. Метод. Щоб вирішити завдання кластеризації тексту, ми використовуємо контекстуалізовані слова-вектори та аналізуємо їх еволюцію між шарами попередньо натренованих моделей трансформерів. Ми шукаємо схожі лексеми у всьому корпусі за допомогою слів-векторів та формуємо теми, які можуть бути присутні у кількох реченнях. Ми об’єднуємо теми так, що речення, які поділяють багато тем, присвоюються одному кластеру. Оскільки одне речення може містити декілька тем, воно може бути присутнім у кількох кластерах одночасно. Аналогічно, для створення анотацій для існуючого кластера ми використовуємо слова-вектори, щоб упорядкувати слова залежно від того, наскільки добре вони описують кластер. Для цього ми пропонуємо нову міру відповідності кластеру – ранг слова. Результати. Описано та реалізовано новий підхід кластеризації тексту. Він здатний віднести один текст до одного та більше кластерів на основі семантичної подібності з іншими текстами групи. Розроблено та застосовано підхід до виокремлення ключових слів як для кластеризації тексту, так і для завдання анотації кластерів. Отримані кластери анотовані та можуть бути інтерпретовані через терміни, з яких сформовані відповідні теми. Висновки. Оцінка на різних наборах даних продемонструвала застосовність, відповідність та легкість інтерпретації отриманих результатів. Описано переваги та можливості вдосконалення запропонованих методів. Були надані рекомендації щодо використання методів, а також можливі їх модифікації.
dc.identifier.uri	https://eir.zp.edu.ua/handle/123456789/27533
dc.language.iso	en
dc.publisher	Національний університет "Запорізька політехніка"
dc.subject	NLP
dc.subject	word embedding
dc.subject	text clustering
dc.subject	cluster labeling
dc.subject	BERT
dc.subject	keyword extraction
dc.subject	semantic similarity
dc.subject	NLP
dc.subject	слова-вектори
dc.subject	кластеризація тексту
dc.subject	анотування кластерів
dc.subject	BERT
dc.subject	виокремлення ключових слів
dc.subject	семантична схожість
dc.title	Multitopic text clustering and cluster labeling using contextualized word embeddings
dc.title.alternative	Кластеризація текстів із виокремленням тем та анотація кластерів за допомогою контекстуальних слів-векторів
dc.type	Article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: S_95 Ostapiuk.pdf
Size:: 649.73 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Радіоелектроніка, інформатика, управління - 2020, №4 (55)