¿Qué es Apache Spark?

Apache Spark es un framework de programación para procesar datos masivos o big data, de forma distribuida, diseñado para ser rápido. Spark ha batido récords en velocidad de procesamiento.

apache-spark

Como su propio nombre indica, ha sido desarrollado por el Apache Foundation, lo que garantiza su licencia Open Source.

Es el sistema de computación paralela más utilizado en empresas como Facebook, IBM, Microsoft, NASA o Netflix.

Funciona integrado con Hadoop y reemplaza al viejo MapReduce utilizado en el pasado para procesar Big Data.

¿Cómo funciona Apache Spark?

Spark no almacena datos, sino los procesa en memoria. Se diferencia de Hadoop en este punto porque incluye almacenamiento persistente (HDFS) y su sistema de procesamiento MapReduce.

Spark puede leer todo tipo de datos modernos como Amazon S3 o Google storage, además de sistemas distribuidos HDFS, sistemas de clave y valor como Apache Cassandra o sistemas de flujos de datos en tiempo real como Apache Kafka.

Tiene una documentación muy completa con muchos ejemplos. Incluye APIs para Java, Scala, Python y R y herramientas de alto nivel en Spark SQL que permiten trabajar con todo tipo de funciones integradas y con buenas velocidades de procesamiento.

Con Spark se puede trabajar con datos estructurados y no estructurados (RDDs, DataFrames y Datasets).

Ecosistema de Spark

Spark tiene actualizaciones nuevas frecuentes ya que es una tecnología emergente y muy activamente desarrollada.

El ecosistema de Spark incluye:

Spark Core: Es el núcleo del framework de Spark que apoya a los demás módulos.

Spark SQL: Módulo para procesar datos estructurados y semi estrcturados.

MLlib: Libreria de Machine Learning (Aprendizaje Automático) con varios tipos de algoritmos como regresión, clasificación etc.

GraphX: Procesamiento de grafos (DAG).

Spark Streaming: Procesamiento de datos en tiempo real.

 

¿Debo aprender Spark?

Spark es una de las tecnologías emergentes del Big Data y uno de los frameworks más utilizados. Tiene APIs para diferentes lenguajes como Python, R, Scala y Java. Si quieres dedicarte al mundo de los datos y estar actualizado con lo último, es recomendable aprender cómo funciona Spark.

En Datademia puedes aprender a utilizar Spark con Python y su API Pyspark.

Apúntate al curso de Spark y Python con PySpark en Datademia.

Comparte en tus redes

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *