Multilingual text classifier using pre-trained universal sentence encoder model

Orlovskiy, O. V.; Khalili, Sohrab; Ostapov, S. E.; Hazdyuk, K. P.; Shumylyak, L. M.; Орловський, О. В.; Остапов, С. Е.; Газдюк, К. П.; Шумиляк, Л. М.

Multilingual text classifier using pre-trained universal sentence encoder model

dc.contributor.author	Orlovskiy, O. V.
dc.contributor.author	Khalili, Sohrab
dc.contributor.author	Ostapov, S. E.
dc.contributor.author	Hazdyuk, K. P.
dc.contributor.author	Shumylyak, L. M.
dc.contributor.author	Орловський, О. В.
dc.contributor.author	Khalili, Sohrab
dc.contributor.author	Остапов, С. Е.
dc.contributor.author	Газдюк, К. П.
dc.contributor.author	Шумиляк, Л. М.
dc.date.accessioned	2026-02-05T11:02:21Z
dc.date.available	2026-02-05T11:02:21Z
dc.date.issued	2022
dc.description	Orlovskiy O. V. Multilingual text classifier using pre-trained universal sentence encoder model / O. V. Orlovskiy, Khalili Sohrab, S. E. Ostapov, K. P. Hazdyuk, L. M. Shumylyak // Радіоелектроніка, інформатика, управління. – 2022. – № 3 (62). – C. 102-108.
dc.description.abstract	EN: Context. Online platforms and environments continue to generate ever-increasing content. The task of automating the moderation of user-generated content continues to be relevant. Of particular note are cases in which, for one reason or another, there is a very small amount of data to teach the classifier. To achieve results under such conditions, it is important to involve the classifier pre-trained models, which were trained on a large amount of data from a wide range. This paper deals with the use of the pre-trained multilingual Universal Sentence Encoder (USE) model as a component of the developed classifier and the affect of hyperparameters on the classification accuracy when learning on a small data amount (~ 0.05% of the dataset). Objective. The goal of this paper is the investigation of the pre-trained multilingual model and optimal hyperparameters influence for learning the text data classifier on the classification result. Method. To solve this problem, a relatively new approach to few-shot learning has recently been used – learning with a relatively small number of examples. Since text data is still the dominant way of transmitting information, the study of the possibilities of constructing a classifier of text data when learning from a small number of examples (~ 0.002–0.05% of the data set) is an actual problem. Results. It is shown that even with a small number of examples for learning (36 per class) due to the use of USE and optimal configuration in learning can achieve high accuracy of classification on English and Russian data, which is extremely important when it is impossible to collect your own large data set. The influence of the approach using USE and a set of different configurations of hyperparameters on the result of the text data classifier on the example of English and Russian data sets is evaluated. Conclusions. During the experiments, a significant degree of relevance of the correct selection of hyperparameters is shown. In particular, this paper considered the batch size, optimizer, number of learning epochs and the percentage of data from the set taken to train the classifier. In the process of experimentation, the optimal configuration of hyperparameters was selected, according to which 86.46% accuracy of classification on the Russian-language data set and 91.13% on the English-language data, respectively, can be achieved in ten seconds of training (training time can be significantly affected by technical means used). UK: Актуальність. Онлайн-платформи продовжують сьогодні генерувати усе більші обсяги інформації. Автоматизація модерування контенту у таких платформах, у зв’язку з цим, залишається актуальною задачею. Особливої уваги потребують випадки, коли з різних причин, доступно лише невеликі обсяги даних для навчання класифікаторів. У таких випадках необхідно залучати попередньо навчені моделі, які використовували для навчання великі об’єми даних широкого діапазону. У цій роботі досліджено питання застосування попередньо навченої мультимовної моделі Universal Sentence Encoder (USE) як компоненту розробленого нами класифікатора, а також впливу різних параметрів на точність класифікації при навчанні на малому об’ємі даних (~ 0,05% обсягу повного набору). Метод. Для вирішення поставленого завдання використовується відносно новий підхід до навчання, – за допомогою невеликого набору повідомлень. Оскільки текстові повідомлення усе ще домінують як способ передавання інформації, застосовується розроблений класифікатор, навчений на невеликому (~ 0,002 – 0,05% повного набору) обсязі даних. Результати. Показано, що навіть при невеликій кількості прикладів для навчання (36 на клас) за рахунок використання ЕСЕ та оптимальної конфігурації в навчанні можна досягти високої точності класифікації за англійськими та російськими даними, що надзвичайно важливо, коли неможливо зібрати свій власний великий набір даних. Оцінено вплив підходу з використанням USE та набору різних конфігурацій гіперпараметрів на результат класифікатора текстових даних на прикладі наборів даних англійською та російською мовами. Висновки. У ході експериментів показана значна ступінь актуальності правильного підбору гіперпараметрів. Зокрема, у цій роботі розглядалися розмір пакету, оптимізатор, кількість епох навчання та відсоток даних із набору, взятих для навчання класифікатора. У процесі експерименту була обрана оптимальна конфігурація гіперпараметрів, згідно з якою 86,46% точності класифікації за російськомовним набором даних і 91,13% за англомовним відповідно можна досягти за десять секунд навчання ( на час навчання можуть істотно вплинути використовувані технічні засоби).
dc.identifier.uri	https://eir.zp.edu.ua/handle/123456789/26623
dc.language.iso	en
dc.publisher	Національний університет "Запорізька політехніка"
dc.subject	few shot learning
dc.subject	low-data learning
dc.subject	pre-trained models
dc.subject	USE
dc.subject	neural networks
dc.subject	data mining
dc.subject	data set
dc.subject	text data classifier
dc.subject	few shot learning
dc.subject	навчання при малій кількості даних
dc.subject	предтреновані моделі
dc.subject	USE
dc.subject	нейронні мережі
dc.subject	інтелектуальний аналіз даних
dc.subject	набір даних
dc.subject	класифікатор текстових даних
dc.title	Multilingual text classifier using pre-trained universal sentence encoder model
dc.title.alternative	Мультимовний класифікатор тексту з використанням предтренованої моделі universal sentence encoder
dc.type	Article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: S_102 Orlovskiy.pdf
Size:: 936.48 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Радіоелектроніка, інформатика, управління - 2022, №3 (62)