Top Ad unit 728 × 90

Docker + PySpark


Para aquellos que quieran experimentar con PySpark y les parezca algo engorroso y complicado el proceso de instalación, o si simplemente no quieren ensuciar vuestro sistema operativo, pueden hacer uso de la imagen de Docker ofrecida por Jupyter disponible en su repositorio oficial. Esta imagen nos ofrece un entorno con todo preparado y adicionalmente nos provee de una interfaz web para la interacción de forma dinámica con PySpark.

¿Docker?

Es un proyecto de código abierto que automatiza el despliegue de aplicaciones dentro de contenedores de software, proporcionando una capa adicional de abstracción y automatización de Virtualización a nivel de sistema operativo.

La idea detrás de Docker es crear contenedores ligeros y portables para las aplicaciones software que puedan ejecutarse en cualquier máquina con Docker instalado, independientemente del sistema operativo que la máquina tenga por debajo, facilitando así también los despliegues.


Para aquellos que no lo posean instalado, les dejo la documentación oficial para las distintas plataformas: ¿Cómo instalo Docker?

Ejecutando el Container

Una vez instalado Docker, solo necesitan ejecutar:

$ docker run -ti --rm -p 8888:8888 jupyter/pyspark-notebook

Posteriormente, abran su navegador en http://localhost:8888/tree y veran una pantalla como la siguiente:

Luego hacen clic en "new" y seleccionan "python 2". Se desplegará un notebook en el cual podrán ejecutar código Python y tendrán a su disposición la librería de PySpark para experimentar como quieran.

Referencias:

https://es.wikipedia.org/wiki/Docker_(software)
http://www.javiergarzas.com/2015/07/que-es-docker-sencillo.html
https://hub.docker.com/r/jupyter/pyspark-notebook/
Docker + PySpark Reviewed by Josemy on 19:19 Rating: 5

No hay comentarios:

All Rights Reserved by Josemy's Blog © 2014 - 2015

Formulario de contacto

Nombre

Correo electrónico *

Mensaje *

Con la tecnología de Blogger.