Построение деревьев решений для случая малоинформативных признаков

Субботин Сергей АлександровичСубботін, Сергій ОлександровичSubbotin, S. A.2026-03-252026-03-252019https://eir.zp.edu.ua/handle/123456789/27706Субботин С. А. Построение деревьев решений для случая малоинформативных признаков / С. А. Субботин // Радіоелектроніка, інформатика, управління. – 2019. – № 1 (48). – C. 122-131.RU: Актуальность. Рассмотрена задача автоматизации построения деревьев решений. Объектом исследования являются деревья решений. Предметом исследования являются методы построения деревьев решений. Цель. Цель работы – создание метода построения моделей на основе деревьев решений для выборок данных, характеризующихся наборами индивидуально малоинформативных признаков. Метод. Предложен метод построения деревьев решений, который для заданной выборки определяет индивидуальную информативность признаков по отношению к выходному признаку, а также оценивает взаимосвязь входных признаков между собой как их индивидуальную информативность попарно по отношению друг к другу, на этапе формирования очередного узла в качестве признака-кандидата выбирает признак, дающий наилучшее разбиение из всего множества признаков, после чего последовательно ищет среди всех еще неотобранных для данного узла признаков такой признак, который индивидуально наиболее тесно связан с отобранным кандидатом, после чего для совокупности отобранных признаков, перебирая поочередно из заданного набора доступные преобразования, определяет качество разбиения для каждого преобразования, выбирает наилучшее преобразование и добавляет его в узел. Метод стремится при формировании очередного узла выделить группу наиболее тесно взаимосвязанных признаков, преобразование которой в скалярное значение обеспечит наилучшее разбиение подвыборки экземпляров, попавших в данный узел. Это позволяет сократить размер модели и ветвистость дерева, ускорить вычисления при распознавании экземпляров на основе модели, а также повысить обобщающие свойства модели и ее интерпретабельность. Предложенный метод позволяет использовать построенное дерево решений для оценки значимости признаков. Результаты. Разработанный метод реализован программно и исследован при решении задачи классификации сигналов, представленных набором отсчетов, обладающих индивидуально низкой информативностью. Выводы. Проведенные эксперименты подтвердили работоспособность предложенного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач диагностирования и автоматической классификации по признакам. Перспективы дальнейших исследований могут заключаться в создании параллельных методов построения деревьев решений на основе предложенного метода, оптимизации его программных реализаций, а также экспериментальном исследовании предложенного метода на более широком комплексе практических задач. UK: Актуальність. Розглянуто задачу автоматизації побудови дерев рішень. Об’єктом дослідження є дерева рішень. Предметом дослідження є методи побудови дерев рішень. Мета. Мета роботи – створення методу побудови моделей на основі дерев рішень для вибірок даних, що характеризуються наборами індивідуально малоінформативних ознак. Метод. Запропоновано метод побудови дерев рішень, який для заданої вибірки визначає індивідуальну інформативність ознак по відношенню до вихідної ознаки, а також оцінює взаємозв’язок вхідних ознак між собою як їх індивідуальну інформативність попарно по відношенню один до одного, на етапі формування чергового вузла в якості ознаки-кандидата обирає ознаку, що дає найкраще розбиття з усієї множини ознак, після чого послідовно шукає серед усіх ще невідібраних для даного вузла ознак таку, що індивідуально найтісніше пов’язана з відібраним кандидатом, після чого для сукупності відібраних ознак, перебираючи по черзі з заданого набору доступні перетворення, визначає якість розбиття для кожного перетворення, обирає найкраще перетворення і додає його в вузол. Метод прагне при формуванні чергового вузла виділити групу найбільш тісно взаємопов’язаних ознак, перетворення якої у скалярне значення забезпечить найкращу розбиття підвибірки зразків, які потрапили у даний вузол. Це дозволяє скоротити розмір моделі і гіллястість дерева, прискорити обчислення при розпізнаванні екземплярів на основі моделі, а також підвищити узагальнювальні властивості моделі та її інтерпретабельність. Запропонований метод дозволяє використовувати побудоване дерево рішень для оцінки значимості ознак. Результати. Розроблений метод реалізований програмно і досліджений під час розв’язання задачі класифікації сигналів, поданих набором відліків, що є індивідуально малоінформативними. Висновки. Проведені експерименти підтвердили працездатність запропонованого математичного забезпечення і дозволяють рекомендувати його для використання на практиці при вирішенні завдань діагностування та автоматичної клас-класифікації за ознаками. Перспективи подальших досліджень можуть полягати у створенні паралельних методів побудови дерев рішень на основі запропонованого методу, оптимізації його програмних реалізацій, а також експериментальному дослідженні запропонованого методу на більш широкому комплексі практичних завдань. EN: Context. The problem of automating the decision tree construction is addressed. The object of study is a decision tree. The subject of study is the methods of decision tree building. Objective. The purpose of the work is to create a method for constructing models based on decision trees for data samples that are characterized by sets of individually low-informative features. Method. A method for decision tree constructing is proposed, which for a given sample determines the individual informativeness of features relatively to the output feature, and also evaluates the relationship of input features with each other as their individual informativity pairwise relatively to each other, at the step of forming the next node the method selects as a candidate feature the feature that gives the best partition in the whole set of features, after which it sequentially searches among all the features that are not selected for this node the one that is individually most closely related with the selected candidate, then for the set of selected features, iterating through the available transformations from a given set, determines the quality of the partition for each transformation, selects the best transformation and adds it to the node. When forming the next node, the method tends to single out a group of the most closely interrelated features, the conversion of which into a scalar value will provide the best partitioning of a subsample of instances hit into this node. This makes possible to reduce the size of the model and the branching of the tree, speed up the calculations in recognizing instances based on the model, as well as improve the generalizing properties of the model and its interpretability. The proposed method allows using the constructed decision tree to assess the feature significance. Results. The developed method is implemented as software and investigated at signal represented by a set of individually low-informative readings classification problem solving. Conclusions. The experiments have confirmed the efficiency of the proposed software and allow recommending it for use in practice in solving problems of diagnostics and automatic classification by features. The prospects for further research may consist in the creation of parallel methods for constructing decision trees based on the proposed method, optimization of its software implementations, and also in an experimental study of the proposed method on a wider set of practical problems.ruдерево решенийраспознавание образовклассификацияпризнакинформативностьдерево рішеньрозпізнавання образівкласифікаціяознакаінформативністьdecision treepattern recognitionclassificationfeatureinformatinenessПостроение деревьев решений для случая малоинформативных признаковПобудова дерев рішень для випадку малоінформативних ознакDecision tree construction for the case of low-informative featuresArticle