¿Qué es Apache Spark?

Apache Spark es un framework de programación para procesar datos masivos o big data, de forma distribuida, diseñado para ser rápido. Spark ha batido récords en velocidad de procesamiento.

Te lo explicamos en este video:

Como su propio nombre indica, ha sido desarrollado por el Apache Foundation, lo que garantiza su licencia Open Source.

Es el sistema de computación paralela más utilizado en empresas como Facebook, IBM, Microsoft, NASA o Netflix.

Funciona integrado con Hadoop y reemplaza al viejo MapReduce utilizado en el pasado para procesar Big Data.

Tabla de Contenidos

¿Cómo funciona Apache Spark?

Spark no almacena datos, sino los procesa en memoria. Se diferencia de Hadoop en este punto porque incluye almacenamiento persistente (HDFS) y su sistema de procesamiento MapReduce.

Spark puede leer todo tipo de datos modernos como Amazon S3 o Google storage, además de sistemas distribuidos HDFS, sistemas de clave y valor como Apache Cassandra o sistemas de flujos de datos en tiempo real como Apache Kafka.

Tiene una documentación muy completa con muchos ejemplos. Incluye APIs para Java, Scala, Python y R y herramientas de alto nivel en Spark SQL que permiten trabajar con todo tipo de funciones integradas y con buenas velocidades de procesamiento.

Con Spark se puede trabajar con datos estructurados y no estructurados (RDDs, DataFrames y Datasets).

Ecosistema de Spark

Spark tiene actualizaciones nuevas frecuentes ya que es una tecnología emergente y muy activamente desarrollada.

El ecosistema de Spark incluye:

Spark Core: Es el núcleo del framework de Spark que apoya a los demás módulos.

Spark SQL: Módulo para procesar datos estructurados y semi estrcturados.

MLlib: Libreria de Machine Learning (Aprendizaje Automático) con varios tipos de algoritmos como regresión, clasificación etc.

GraphX: Procesamiento de grafos (DAG).

Spark Streaming: Procesamiento de datos en tiempo real.

¿Debo aprender Spark?

Spark es una de las tecnologías emergentes del Big Data y uno de los frameworks más utilizados. Tiene APIs para diferentes lenguajes como Python, R, Scala y Java. Si quieres dedicarte al mundo de los datos y estar actualizado con lo último, es recomendable aprender cómo funciona Spark.

En Datademia puedes aprender a utilizar Spark con Python y su API Pyspark.

Apúntate al curso de Spark y Python con PySpark en Datademia.

¿Qué es Apache Spark?

¿Cómo funciona Apache Spark?

Ecosistema de Spark

¿Debo aprender Spark?

1 comentario en “¿Qué es Apache Spark?”

Deja un comentario Cancelar respuesta

Consigue tu siguiente trabajo
aprendiendo las habilidades
del futuro

Crea tu cuenta gratuita

¿Alguna duda?

Cursos

Últimas entradas en el blog

Las habilidades más importantes para el futuro

Los trabajos más y menos demandados para 2027: Informe del futuro del trabajo

7 errores a evitar al buscar trabajo como analista de datos

Análisis de datos – Trabajo bien pagado y en remoto

¿Cómo funciona Apache Spark?

Ecosistema de Spark

¿Debo aprender Spark?

1 comentario en “¿Qué es Apache Spark?”

Deja un comentario Cancelar respuesta

Consigue tu siguiente trabajo aprendiendo las habilidades del futuro Crea tu cuenta gratuita

¿Alguna duda?

Cursos

Últimas entradas en el blog

Las habilidades más importantes para el futuro

Los trabajos más y menos demandados para 2027: Informe del futuro del trabajo

7 errores a evitar al buscar trabajo como analista de datos

¿Qué es una cookie y cómo afecta a tu privacidad?

Análisis de datos – Trabajo bien pagado y en remoto

Consigue tu siguiente trabajo
aprendiendo las habilidades
del futuro

Crea tu cuenta gratuita