Machine Learning Modelling and Feature Engineering in Seismology Experiment

Abstract

UK: Ця стаття має на меті обговорення моделювання машинного навчання за допомогою набору даних, наданого конкурсом прогнозування землетрусів LANL (Лос-Аламосська національна лабораторія), проведеним Кагглом. Дані були отримані в результаті лабораторного експерименту тертя з ковзанням, що імітує справжні землетруси. Оцифровані акустичні сигнали реєструвались із часом до руйнування гранульованого шару, стиснутого між сталевими пластинами. У цій роботі машинне навчання було використано для розробки моделей, які могли передбачити землетруси. Мета полягає у висвітленні важливості та потенційної застосовності машинного навчання в сейсмології. Алгоритм XGBoost був використаний для моделювання в поєднанні з 6-кратною перехресною перевіркою та метрикою середньої абсолютної похибки (MAE) для оцінки якості моделі. Для пошуку найкращого поєднання ознак було використано техніку усунення відсталих елементів, а потім підхід до побудови передових об’єктів. Перевага цього методу розробки особливостей полягає в тому, що він дозволяє знайти відносно великий набір функцій з відносно великого набору ознак за відносно короткий час. Було підтверджено, що правильна комбінація статистичних характеристик, що описують акустичні дані, може бути використана для ефективного прогнозування часу до відмови. Крім того, статистичні характеристики, засновані на автокореляції акустичних даних, також можуть бути використані для подальшого поліпшення якості моделі. Всього було враховано 48 статистичних ознак. Визначено, що найкраща підмножина має 10 ознак. Відповідне значення MAE становило 1,913 с, що було стабільним до третього знака після коми. Представлені результати можуть бути використані для розробки алгоритмів штучного інтелекту, присвячених прогнозуванню землетрусів. EN: This article aims to discusses machine learning modelling using a dataset provided by the LANL (Los Alamos National Laboratory) earthquake prediction competition hosted by Kaggle. The data were obtained from a laboratory stick-slip friction experiment that mimics real earthquakes. Digitized acoustic signals were recorded against time to failure of a granular layer compressed between steel plates. In this work, machine learning was employed to develop models that could predict earthquakes. The aim is to highlight the importance and potential applicability of machine learning in seismology The XGBoost algorithm was used for modelling combined with 6-fold cross-validation and the mean absolute error (MAE) metric for model quality estimation. The backward feature elimination technique was used followed by the forward feature construction approach to find the best combination of features. The advantage of this feature engineering method is that it enables the best subset to be found from a relatively large set of features in a relatively short time. It was confirmed that the proper combination of statistical characteristics describing acoustic data can be used for effective prediction of time to failure. Additionally, statistical features based on the autocorrelation of acoustic data can also be used for further improvement of model quality. A total of 48 statistical features were considered. The best subset was determined as having 10 features. Its corresponding MAE was 1.913 s, which was stable to the third decimal point. The presented results can be used to develop artificial intelligence algorithms devoted to earthquake prediction. RU: В этой статье рассматривается моделирование машинного обучения с использованием набора данных, предоставленного конкурсом по прогнозированию землетрясений LANL (Лос-Аламосская национальная лаборатория), проводимым Kaggle. Данные были получены в результате лабораторного эксперимента по трению прерывистого скольжения, имитирующего реальные землетрясения. Оцифрованные акустические сигналы были записаны в зависимости от времени до разрушения зернистого слоя, сжатого между стальными пластинами. В этой работе машинное обучение использовалось для разработки моделей, которые могли предсказывать землетрясения. Цель состоит в том, чтобы подчеркнуть важность и потенциальную применимость машинного обучения в сейсмологии. Алгоритм XGBoost использовался для моделирования в сочетании с 6-кратной перекрестной проверкой и показателем средней абсолютной ошибки (MAE) для оценки качества модели. Для нахождения наилучшего сочетания признаков использовалась методика исключения обратных признаков, за которой последовал подход построения прямых признаков. Преимущество этого метода конструирования признаков состоит в том, что он позволяет найти наилучшее подмножество из относительно большого набора признаков за относительно короткое время. Было подтверждено, что правильное сочетание статистических характеристик, описывающих акустические данные, может быть использовано для эффективного прогнозирования времени до отказа. Кроме того, статистические функции, основанные на автокорреляции акустических данных, также могут быть использованы для дальнейшего улучшения качества модели. Всего было рассмотрено 48 статистических признаков. Лучшее подмножество было определено как имеющее 10 характеристик. Соответствующий ему MAE составил 1,913 с, который был стабильным до третьего знака после запятой.

Description

Machine Learning Modelling and Feature Engineering in Seismology Experiment / Sylenko, Serhii //: Sensors 2020, 20, 4228; doi:10.3390/s20154228 http://dx.doi.org/10.3390/s20154228

Keywords

seismology, earthquake prediction, laboratory experiment, сейсмологія, прогнозування землетрусів, лабораторний експеримент, сейсмология, прогноз землетрясений, лабораторный эксперимент

Citation