Technology for automated construction of domain dictionaries with special processing of short documents
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Запорізька політехніка"
Abstract
EN: Context. The task of automating the construction of domain dictionaries in the process of implementing software projects based on the analysis of documents, taking into account their size and presentation form.
Objective. The goal of the work is to improve the quality of the dictionary based on the use of new technology, including special processing of short documents.
Method. A model of a short document is proposed, which presents it in the form of three parts: header, content and final. The header and final parts usually contain information not related to the subject area. Therefore, a method for extracting content based on the use of many keywords has been proposed. The size of a short document (its content) does not allow determining the frequency characteristics of words and, therefore, identifying multi-word terms, the share of which reaches 50% of all terms. To make it possible to identify terms in short documents, a method for their clustering is proposed, based on the selection of nouns and the calculation of their frequency characteristics. The resulting clusters are treated as ordinary documents, since their size allows for the selection of multi-word terms. To highlight terms, it is proposed to select sequences of words containing nouns in the text. Analysis of the frequency of repetition of such sequences allows us to identify multi-word terms. To determine the interpretation of terms, a previously developed method of automated search for interpretations in dictionaries was used.
Results. Based on the proposed model and methods, software was created to build a domain dictionary and a number of experiments were conducted to confirm the effectiveness of the developed solutions.
Conclusions. The experiments carried out confirmed the performance of the proposed software and allow us to recommend it for use in practice for creating dictionaries of the subject area of various information systems. Prospects for further research may include the construction of corporate search systems based on dictionaries of terms and document clustering.
UK: Актуальність. Розглянуто завдання автоматизації побудови словників предметної галузі у процесі виконання програмних проектів на основі аналізу документів з урахуванням їх розміру та форми подання.
Мета роботи – підвищення якості словника на основі застосування нової технології, що включає спеціальну обробку коротких документів.
Метод. Пропонується модель короткого документа, яка представляє його у вигляді трьох частин: заголовної, змістовної та заключної. У заголовній і заключній частинах зазвичай міститься інформація, що не має відношення до предметної області. Тому запропоновано метод виділення змістовної частини, заснований на використанні множини ключових слів. Розмір короткого документа (його змістовної частини) не дозволяє визначити частотні характеристики слів і виявити багатослівні терміни, частка яких сягає 50% від усіх термінів. Для забезпечення можливості виділення термінів у коротких документах запропоновано метод їх кластеризації, заснований на виділенні іменників та обчисленні їх частотних характеристик. Утворені кластери розглядаються як звичайні документи, оскільки їхній розмір дозволяє виділяти багатослівні терміни. Для виділення термінів запропоновано виділяти в тексті послідовності слів, що містять іменники. Аналіз частот повторення таких послідовностей дозволяє визначити багатослівні терміни. Для визначення тлумачення термінів використано раніше розроблений метод автоматизованого пошуку тлумачень у словниках.
Результати. На основі запропонованої моделі та методів створено програмне забезпечення для побудови словника предметної галузі та проведено низку експериментів, що підтверджують ефективність розроблених рішень.
Висновки. Проведені експерименти підтвердили працездатність запропонованого програмного забезпечення та дозволяють рекомендувати його до використання на практиці для створення словників предметної галузі різних інформаційних систем. Перспективи подальших досліджень можуть включати побудову корпоративних пошукових систем на основі словників термінів та кластеризації документів.
Description
Kungurtsev O. B. Technology for automated construction of domain dictionaries with special processing of short documents / O. B. Kungurtsev, I. I. Mileiko, N. O. Novikova // Радіоелектроніка, інформатика, управління. – 2023. – № 4 (67). – C. 148-156.