Метрики качества выборок данных и моделей зависимостей, основанные на фрактальной размерности

Субботин, Сергей Александрович; Субботін, Сергій Олександрович; Subbotin, S. A.

Метрики качества выборок данных и моделей зависимостей, основанные на фрактальной размерности

Files

S_70 Subbotin.pdf (918.83 KB)

Date

2017

Authors

Субботин, Сергей Александрович

Субботін, Сергій Олександрович

Subbotin, S. A.

Publisher

Національний університет "Запорізька політехніка"

Abstract

RU: Актуальность. Рассмотрена задача автоматизации формирования выборок из исходных выборок большого объема для построения моделей по прецедентам. Объектом исследования являлась модель качества выборки для построения моделей по прецедентам. Цель работы – создание набора показателей для оценки качества выборок, имеющих единую природу, на основе принципов фрактального анализа. Метод. Предложен комплекс показателей, позволяющих характеризовать качество подвыборок относительно исходной выборки с единых позиций на основе принципов фрактального анализа. Предложены методы определения фрактальной размерности выборки, оперирующие прямоугольными блоками одинакового размера, покрывая ними пространство признаков: не учитывающий характеристики синтезируемой модели, учитывающий ошибку (точность), синтезируемой модели, а также учитывающий точность и сложность синтезируемой модели. Наряду с фрактальной размерностью также предложен метод определения показателей качества выборки на основе принципа массовой размерности применительно к анализу данных. Предложенный метод разбивает пространство признаков на кластеры одинакового размера и формы. Варьируя размер кластера, метод позволяет получать различные уровни детализации выборки. Метод позволяет определить центр масс класса в выборке, среднее расстояние между экземплярами кластера, нормированное среднее отклонение расстояний между экземплярами от их среднего, массу и плотность экземпляров кластера, объем и площадь поверхности прямоугольного кластера, отношение объема к площади поверхности кластера, средневзвешенную равномерность расположения экземпляров в кластерах класса, массу и плотность экземпляров класса, средневзвешенную равномерность расположения экземпляров выборки. Результаты. Разработанные показатели реализованы программно и исследованы при решении задачи классификации ирисов Фишера. Выводы. Проведенные эксперименты подтвердили работоспособность предложенного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач диагностирования и автоматической классификации по признакам. Перспективы дальнейших исследований могут заключаться в создании параллельных методов расчета комплекса предложенных показателей, оптимизации их программных реализаций, а также экспериментальном исследовании предложенных показателей на большем комплексе практических задач разной природы и размерности. UK: Актуальність. Розглянуто задачу автоматизації формування вибірок з вихідних вибірок великого обсягу для побудови моделей за прецедентами. Об’єктом дослідження є модель якості вибірки для побудови моделей за прецедентами. Мета роботи – створення набору показників для оцінки якості вибірок, що мають єдину природу, на основі принципів фрактального аналізу. Метод. Запропоновано комплекс показників, що дозволяють характеризувати якість підвибірок відносно вихідної вибірки з єдиних позицій на основі принципів фрактального аналізу. Запропоновано методи визначення фрактальної розмірності вибірки, що оперують прямокутними блоками однакового розміру, покриваючи ними простір ознак: такий, що не враховує характеристики синтезованої моделі, такий, що враховує помилку (точність) синтезованої моделі, а також такий, що враховує точність і складність синтезованої моделі. Поряд із фрактальною розмірністю також запропоновано метод визначення показників якості вибірки на основі принципу масової розмірності стосовно до аналізу даних. Запропонований метод розбиває простір ознак на кластери однакового розміру і форми. Варіюючи розмір кластера, метод дозволяє одержувати різні рівні деталізації вибірки. Метод дозволяє визначити центр мас класу у вибірці, середню відстань між екземплярами кластера, нормоване середнє відхилення відстаней між екземплярами від їхнього середнього, масу і щільність екземплярів кластера, обсяг і площу поверхні прямокутного кластера, відношення обсягу до площі поверхні кластера, середньозважену рівномірність розташування екземплярів у кластерах класу, масу і щільність екземплярів класу, середньозважену рівномірність розташування екземплярів вибірки. Результати. Розроблені показники реалізовані програмно і досліджені при вирішенні задачі класифікації ірисів Фішера. Висновки. Проведені експерименти підтвердили працездатність запропонованого математичного забезпечення і дозволяють рекомендувати його для використання на практиці при вирішенні задач діагностування й автоматичної класифікації за ознаками. Перспективи подальших досліджень можуть полягати в створенні послідовних методів розрахунку комплексу запропонованих показників, оптимізації їхніх програмних реалізацій, а також експериментальному дослідженні запропонованих показників на більшому комплексі практичних задач різної природи і розмірності. EN: Context. The problem of automating the sampling of the original sample a large amount for the construction of models precedent. The object of the study was to model quality samples to build the models precedents. Objective. The goal of the work is the creation of a set of indicators to assess the quality of samples having a single nature, based on the principles of fractal analysis. Method. A set of indicators is proposed to characterize the quality of the subsample with respect to the original sample with one point of view on the basis of the principles of fractal analysis. The methods of sample fractal dimension evaluation are proposed. They operating with rectangular blocks of equal size and covering by them the feature space. They are method not taking into account the characteristics of the synthesized model, method taking into account the error (accuracy) of synthesized model and method taking into account accuracy and complexity of the synthesized model. Along with the fractal dimension it is also provided a method for determining the sample quality indicators based on the principle of mass dimension with regard to data analysis. The proposed method divides the feature space on clusters of the same size and shape. The method allows obtaining different levels of sampling detail varying the size of the cluster. The method allows to determine the masses of the class center in the sample, the average distance between instances of the cluster, the normalized mean deviation of the distance between instances of their average mass and density of the instances of the cluster, the volume and surface area of rectangular cluster ratio of volume to surface area of the cluster, the weighted average of evenness of instances location in the clusters of a class, the mass and density of instances of the class, the weighted average of sample instances location. Results. The developed indicators have been implemented in software and investigated for solving the problems of Fisher’s Iris classification. Conclusions. The conducted experiments have confirmed the proposed software operability and allow recommending it for use in practice for solving the problems of diagnosis and automatic classification on the features. The prospects for further research may include the creation of parallel methods for calculation of set of proposed indicators, the optimization of their software implementations, as well as a experimental study of proposed indicators on more complex practical problems of different nature and dimensionality.

Description

Субботин С. А. Метрики качества выборок данных и моделей зависимостей, основанные на фрактальной размерности / С. А. Субботин // Радіоелектроніка, інформатика, управління. – 2017. – № 2 (41). – C. 70-81.