Sparkmach: A Distributed Data Processing System Based on Automated Machine Learning for Big Data

Bravo-Rocca, Gusseppe; Torres-Robatty, Piero; Fiestas-Iquira, Jose

Publicación:

Sparkmach: A Distributed Data Processing System Based on Automated Machine Learning for Big Data

Fecha

2019

Autores

Bravo-Rocca, Gusseppe

Torres-Robatty, Piero

Fiestas-Iquira, Jose

Editor

Springer International Publishing

Abstracto

This work proposes a semi-automated analysis and modeling package for Machine Learning related problems. The library goal is to reduce the steps involved in a traditional data science roadmap. To do so, Sparkmach takes advantage of Machine Learning techniques to build base models for both classification and regression problems. These models include exploratory data analysis, data preprocessing, feature engineering and modeling. The project has its basis in Pymach, a similar library that faces those steps for small and medium-sized datasets (about ten millions of rows and a few columns). Sparkmach central labor is to scale Pymach to overcome big datasets by using Apache Spark distributed computing, a distributed engine for large-scale data processing, that tackle several data science related problems in a cluster environment. Despite the software nature, Sparkmach can be of use for local environments, getting the most benefits from the distributed processing tools.

Palabras clave

Statistics, Semi-automated machine learning, Data Science, Data mining, Data engineering, Big data

URI

https://hdl.handle.net/20.500.12390/1325

Colecciones

1.1 Eventos institucionales
6.1 Proyectos de investigación científica

Página completa del artículo

Publicación:

Sparkmach: A Distributed Data Processing System Based on Automated Machine Learning for Big Data

Fecha

Autores

Título de la revista

Revista ISSN

Título del volumen

Editor

Proyectos de investigación

Unidades organizativas

Número de la revista

Abstracto

Descripción

Palabras clave

Citación

URI

Colecciones

Publicación: Sparkmach: A Distributed Data Processing System Based on Automated Machine Learning for Big Data

context-menu.actions.label

Fecha

Autores

Título de la revista

Revista ISSN

Título del volumen

Editor

Proyectos de investigación

Unidades organizativas

Número de la revista

Abstracto

Descripción

Palabras clave

Citación

URI

Colecciones

Publicación:

Sparkmach: A Distributed Data Processing System Based on Automated Machine Learning for Big Data