Метод авторифікації тексту науково-технічних публікацій на основі лінгвістичного аналізу коефіцієнтів мовної різноманітності

Висоцька, В. А.; Vysotska, V.

Метод авторифікації тексту науково-технічних публікацій на основі лінгвістичного аналізу коефіцієнтів мовної різноманітності

Files

S_108 Vysotska.pdf (941.66 KB)

Date

2020

Authors

Висоцька, В. А.

Vysotska, V.

Publisher

Національний університет "Запорізька політехніка"

Abstract

UK: Актуальність. Авторифікація авторства тексту є технікою визначення автора тексту, коли неоднозначно, хто її написав. Це корисно, коли декілька людей претендують на авторство однієї публікації або у випадках, коли ніхто не претендує на авторство текстового контенту, наприклад, так звані тролі в соціальних мережах під час інформаційної війни. Складність проблеми авторського тексту, очевидно, експоненціально вища, більша кількість вірогідних авторів. Наявність авторських текстових зразків також є суттєвою при просуненні цієї проблеми. Атрибуція авторського тексту включає наступні три проблеми: – виявлення автора текстового автора з групи імовірних або очікуваних авторів, де автор завжди знаходиться у групі підозрюваних; – не ідентифікація автора текстового автора з групи вірогідних або очікуваних авторів, де автор може не бути в групі підозрюваних; – оцінка можливості даного тексту, написаного даним автором чи ні. Тому задача автоматичного визначення автора текстового контенту науково-технічного спрямування є актуальною й потребує нових (досконаліших) підходів до її розв’язування. Метою дослідження є розроблення методу визначення автора у україномовних текстах на основі технології лінгвометрії. Метод. Розробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі автоматичного визначення автора україномовного текстового контенту на основі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Проаналізовані також параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто при аналізі лінгвістичних одиниць типу слів, враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього провадився аналіз флексій цих слів для класифікації, виділення основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників в подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов’язані з темою і змістом публікації. Результати. Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001–2017 рр. для визначення чи змінюються і як коефіцієнти різноманітності тексту цих авторів в різні проміжки часу. Висновки. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації як анотації та ключові слова різними мовами, а також списку літератури. EN: Context. Authorization of the authorship of the text is a technique for determining the author of the text, when it is ambiguous who wrote it. It is useful when several people claim to be the authors of one publication or in cases where nobody claims to authorship of text content, for example, so-called trolls in social networks during an information warfare. The complexity of the problem of the author’s text, obviously, is exponentially higher, more likely authors. The presence of author’s text samples is also significant in advancing this problem. The attribution of the author’s text includes the following three problems: – author discovery of text from probable or expected authors group, where the author is always in a suspects group; – not identification of the author of a text author from a group of probable or expected authors, where the author may not be in a group of suspects; – assessment of the possibility of this text, written by the author or not. Therefore, the task of automatically determining the author of text content of scientific and technical direction is relevant and requires new (more perfect) approaches to its solution. Objective of the study is to develop a method for determining the author in Ukrainian texts based on the technology of lingometry. Method. Lingvometric method of algorithmic provision of content monitoring processes for solving the problem of automatic determination of the author of Ukrainian-language text content on the basis of technology of statistical analysis of linguistic diversity coefficients is developed. A decomposition of the method of determination of the author on the basis of analysis of such broadcasting factors as lexical diversity, degree (degree) of syntactic complexity, speech connectivity, singularity indexes and text concentrations is made. Also, author’s style parameters are analyzed as the number of words in a particular text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, and the number of words with a frequency of 10 or more. The features of the developed is the adaptation of the morphological and syntactic analysis of lexical units to the features of the designs of Ukrainian-language words / texts. That is, in the analysis of linguistic units of the type of words, the affiliation with the part of speech and declarations within this part of the language was taken into account. To do this, an analysis of the flexion of these words was carried out for classification, the allocation of the basis for the formation of the corresponding alphabet-frequency dictionaries. The filling of these dictionaries was further taken into account in the subsequent steps of determining the authorship of the text as the calculation of parameters and coefficients of copyright broadcasting. For the individual style of a writer, it is precisely service (stop or reference) words that are indicative because they are not related to the topic and content of the publication. Results. A comparison of results on a plurality of 200 individual technical works of about 100 different authors over the period 2001–2017 has been made to determine whether the coefficients of the diversity of the text of these authors are different at different intervals. Conclusions. It has been found that for the chosen experimental base with over 200 works of the best results, the method of analysis of the article without initial obligatory information as annotations and keywords in various languages and the list of literature achieves the density criterion.

Description

Висоцька В. А. Метод авторифікації тексту науково-технічних публікацій на основі лінгвістичного аналізу коефіцієнтів мовної різноманітності / В. А. Висоцька // Радіоелектроніка, інформатика, управління. – 2020. – № 1 (52). – C. 108-124.