Перспективні технології дослідження великих даних у розподілених інформаційних системах

Бойко, Н. І.Boyko, N.2026-04-292026-04-292017https://eir.zp.edu.ua/handle/123456789/28330Бойко Н. І. Перспективні технології дослідження великих даних у розподілених інформаційних системах / Н. І. Бойко // Радіоелектроніка, інформатика, управління. – 2017. – № 4 (43). – C. 66-76.UK: Актуальність. Розглянуто питання коректної інтерпретації інформаційних потоків у розподілених інформаційних системах. Об’єктом дослідження є методи дослідження просування «великих даних» по кластерах системи. Мета роботи є дослідження перспективних напрямків та технологій для аналізу структур даних у розподілених інформаційних системах. Метод. Розглянуто технології обробки великих даних. Проведено аналіз кожної з них. Наведено приклад застосування парадигми MapReduce, завантаження великих обсягів даних на сервер, опрацювання та аналіз неструктурованої інформації та розподілення її у кластеризовану базу даних. В статті узагальнено поняття “великі дані”. Наводяться приклади методів по роботі з масивами неструктурованих даних. Виділені наукові спрямування для аналізу великих даних. Сформульовані принципи роботи неструктурованих даних у розподілений інформаційних системах. Приводиться робота платформ Hadoop MapReduce та Apache Spark. Аналізуються їхні властивості та приводяться відмінності. Наводиться порівняльний аналіз продуктивності обох платформ у відношенні – час виконання до кількості ітерацій. Розглядаються способи створення RDD: розпаралелення переданої колекції в програмі та посилання на зовнішню файлову систему в Hadoop. Також наводиться приклад розпаралеленої системи RDD. Пропонується робота класу одинак для основних операцій з базою даних: підключення до бази даних, створення таблиці, знищення таблиці, отримання рядка по id, повернення усіх елементів бази даних, оновлення, видалення та створення рядка. Результати. Проведений аналіз моделей Spark та Hadoop MapReduce для поеапної побудови розподіленої інформаційної системи. Побудований SparkConf об’єкт, який містить інформацію про аплікацію і є кінцевим варіантом експеременту. Висновки. Проведені експерименти підтвердили працездатність запропонованих методів, які здатні обробляти горизонтальні масиви даних, що розпаралелені через неякісний спосіб представлення інформації. Такі перспективні напрямки роботи аналізують структуру даних з метою прогнозу результатів та створюють алгоритми передових кореляцій, що сприяють новому розумінню діяльності розподілених інформаційних систем. Подальші дослідження можуть полягати в широкому застосуванні інформаційних систем, які би забезпечували повний комплекс технологічного процесу адаптації інформаційних потоків у кластери. EN: Context. Considered question correct interpretation information flow in distributed information systems. The object of study methods are promotion “big data” on cluster system. Objective. Is the study promising areas and technology for the analysis of structures data in distributed information systems. Method. The big data tendency prospects as well as timeliness of the problem are studied in this paper. The principles of work with them are addressed. Big data processing technologies are provided. The analysis of each one is performed. An example of “MapReduce” paradigm application, uploading of big volumes of data, processing and analyzing of unstructured information and its distribution into the clustered database is provided. The article summarizes the concept of “big data”. Examples of methods for working with arrays of unstructured data. Dedicated scientific guidance for analyzing big data. The principles of unstructured data in distributed information systems. Driven work platform “Hadoop MapReduce” and “Apache Spark”. Analyzed their properties and given the differences. An analysis of comparative performance against both platforms – the performance of the number of iterations. Consider ways to create RDD: parallelization transmitted collection program and a link to an external file system in “Hadoop”. There is an example rozparalelenoyi system RDD. Proposed work lone class for basic database operations: database connection, create a table, a table, get in line id, returning all elements of the database, update, delete and create the line. Results. The analysis Models Spark and Hadoop MapReduce for phased construction distributed information system. built up SparkConf object, containing information about applique and is the final version of the experiment. Conclusions. Conducted experiment confirmed efficiency the proposed method, are capable process horizontal data arrays, that parallelization by defective presentation of information. These promising areas of analyze structure data for the purpose of forecast results and create algorithms advanced correlation, contributing new understanding activity distributed information systems further research can consist in wide use information systems, that would provide a full range technological process adaptation information flows in clusters.ukсистематехнологіявеликі даніінформаціяметодикабаза данихвеб-аплікаціямоделюванняобробкааналізsystemtechnologybig datainformationtechniquedatabaseweb applicationmodelingprocessinganalyticsПерспективні технології дослідження великих даних у розподілених інформаційних системахAdvanced technologies of big data research in distributed information systemsArticle