Docker + PySpark
Para aquellos que quieran experimentar con PySpark y les parezca algo engorroso y complicado el proceso de instalación, o si simplemente no quieren ensuciar vuestro sistema operativo, pueden hacer uso de la imagen de Docker ofrecida por Jupyter disponible en su repositorio oficial. Esta imagen nos ofrece un entorno con todo preparado y adicionalmente nos provee de una interfaz web para la interacción de forma dinámica con PySpark.
¿Docker?
Es un proyecto de código abierto que automatiza el despliegue de aplicaciones dentro de contenedores de software, proporcionando una capa adicional de abstracción y automatización de Virtualización a nivel de sistema operativo.La idea detrás de Docker es crear contenedores ligeros y portables para las aplicaciones software que puedan ejecutarse en cualquier máquina con Docker instalado, independientemente del sistema operativo que la máquina tenga por debajo, facilitando asà también los despliegues.
Para aquellos que no lo posean instalado, les dejo la documentación oficial para las distintas plataformas: ¿Cómo instalo Docker?
Ejecutando el Container
Una vez instalado Docker, solo necesitan ejecutar:
$ docker run -ti --rm -p 8888:8888 jupyter/pyspark-notebook
Luego hacen clic en "new" y seleccionan "python 2". Se desplegará un notebook en el cual podrán ejecutar código Python y tendrán a su disposición la librerÃa de PySpark para experimentar como quieran.
$ docker run -ti --rm -p 8888:8888 jupyter/pyspark-notebook
Posteriormente, abran su navegador en http://localhost:8888/tree y veran una pantalla como la siguiente:
Referencias:
https://es.wikipedia.org/wiki/Docker_(software)
http://www.javiergarzas.com/2015/07/que-es-docker-sencillo.html
https://hub.docker.com/r/jupyter/pyspark-notebook/
Docker + PySpark
Reviewed by Josemy
on
19:19
Rating:

No hay comentarios: