Apache Hadoop – Instalaci贸n y configuraci贸n de un cl煤ster en Ubuntu 18.04









El Apache Hadoop es un framework desarrollado en Java, para computaci贸n distribuida, usada para procesamiento de grandes cantidades de informaci贸n. Hadoop es, por ejemplo, utilizado por grandes plataformas mundiales como es el caso de Facebook.

Hoy vamos a ense帽ar c贸mo instalar el Apache Hadoop en Ubuntu 18.04.

Apache Hadoop - Instalaci贸n y configuraci贸n de un cl煤ster en Ubuntu 18.04

Para entender mejor lo que se va a hacer en este tutorial, debe saber que Hadoop est谩 dividido en dos partes esenciales:

Hadoop Distributed File System (HDFS)

  • Sistema de archivos distribuido que almacena datos en m谩quinas dentro del cl煤ster.

Hadoop MapReduce





  • Modelo de programaci贸n para procesamiento a gran escala.

La siguiente figura representa el modelo de programaci贸n MapReduce

Requisitos previos:

  • Ubuntu 18.04 (M谩quina virtualizada en VirtualBox u otra plataforma)
  • Java instalado
  • Apache Hadoop

Para comprobar si tiene el java instalado en su m谩quina, debe ejecutar el siguiente comando:

usuario @ ubuntu: ~ $ Java -versi贸n

Si no tiene instalado java, simplemente ejecute los siguientes comandos:

usuario @ ubuntu: ~ $ sudo apt-get install default-JRE
usuario @ ubuntu: ~ $ sudo apt-get install default-JDK

Paso 1) Configuraci贸n del usuario Hadoop

Despu茅s de que el java instalado, el primer paso es crear un usuario Hadoop en el sistema para acceder al HDFS y MapReduce.

Para evitar problemas de seguridad, se recomienda configurar un nuevo grupo de usuarios de Hadoop.

usuario @ ubuntu: ~ $ sudo addgroup hadoop

Agregar un usuario Hadoop de nombre hadoopusr

usuario @ ubuntu: ~ $ sudo addusr --ingroup hadoop hadoopusr
usuario @ ubuntu: ~ $ sudo adduser hadoopusr sudo

Paso 2) Instalaci贸n y configuraci贸n de OpenSSH

A continuaci贸n vamos a proceder a la instalaci贸n y configuraci贸n del SSH.

Para instalar OpenSSH Server, basta con ejecutar el siguiente comando:

usuario @ ubuntu: ~ $ sudo apt-get install openssh-server

Hadoop utiliza SSH para acceder a los nodos. En este caso, como estamos haciendo una configuraci贸n para un solo nodo, necesitamos configurar el SSH para acceder al localhost.

Vamos a entrar con el usuario hadoopusr

usuario @ ubuntu: ~ $ Do - hadoopusr

El siguiente paso es generar una clave p煤blica SSH para el hadoopusr

hadoopusr @ ubuntu: ~ $ ssh-keygen -t RSA -P ""

A continuaci贸n, vamos a agregar la clave generada anteriormente a la lista de authorized_keys. Para ello, basta con ejecutar el siguiente comando:

hadoopusr @ ubuntu: ~ $ gato $ HOME/ .ssh/id_rsa.pub >> $ HOME/ .ssh/authorized_keys

Para comprobar que el SSH est谩 funcionando, debe utilizar el siguiente comando:

hadoopusr @ ubuntu: ~ $ ssh localhost

Al final, debe ejecutar el comando salida para terminar la conexi贸n.

Paso 3) Instalaci贸n y configuraci贸n de Hadoop

Ahora vamos a descargar Hadoop 2.9.1.

El archivo se quedar谩 en el escritorio. Para ello, basta con ejecutar el siguiente comando:

hadoopusr @ ubuntu: ~ $ sudo wget -P /casa/usuario/Escritorio http://mirrors.sonic.net/apache/hadoop/com煤n/2.9.1-hadoop/hadoop-2.9.1.tar.gz

Cambiamos el directorio al escritorio para descomprimir la carpeta de Hadoop

hadoopusr @ ubuntu: ~ $ CD /casa/usuario/escritorio
hadoopusr @ ubuntu: ~ $ sudo alquitr谩n xvzf hadoop-2.9.1.tar.gz

Hecha la descompresi贸n, vamos a mover la carpeta al directorio / usr / local / hadoop

hadoopusr @ ubuntu: ~ $ sudo mv 2.9.1-hadoop /usr/local/hadoop

Vamos a asignar la propiedad de la carpeta 'hadoop' al usuario hadoopusr

hadoopusr @ ubuntu: ~ $ sudo chown -R hadoopusr /usr/local

Ahora procedemos a la configuraci贸n de varios archivos. La configuraci贸n del Apache Hadoop debe comenzar por la definici贸n de las siguientes variables de ambiente que deber谩n estar en el archivo ~ / .bashrc.

hadoopusr @ ubuntu: ~ $ sudo gedit ~/.bashrc

Despu茅s de ejecutar el comando anterior, debe copiar la siguiente configuraci贸n al final del archivo

exportaci贸n HADOOP_HOME=/usr/local/hadoop
exportaci贸n PATH=$ PATH:$ HADOOP_HOME/papelera
exportaci贸n PATH=$ PATH:$ HADOOP_HOME/sbin
exportaci贸n HADOOP_MAPRED_HOME=$ HADOOP_HOME
exportaci贸n HADOOP_COMMON_HOME=$ HADOOP_HOME
exportaci贸n HADOOP_HDFS_HOME=$ HADOOP_HOME
exportaci贸n YARN_HOME=$ HADOOP_HOME
exportaci贸n HADOOP_COMMON_LIB_NATIVE_DIR=$ HADOOP_HOME/lib/nativo
exportaci贸n HADOOP_OPTS=""
exportaci贸n HADOOP_CLASSPATH=$ {} JAVA_HOME/lib/tools.jar

Haga clic en "GuardarY despu茅s, para que la siguiente configuraci贸n tenga efecto en la sesi贸n actual, basta con usar el comando.

hadoopusr @ ubuntu: ~ $ fuente ~/.bashrc

Ahora vamos a editar el archivo hadoop-env.sh y establecer la variable de entorno JAVA_HOME.

hadoopusr @ ubuntu: ~ $ CD /usr/local/hadoop/etc茅tera/hadoop/
hadoopusr @ ubuntu: ~ $ sudo gedit hadoop-env.sh

S贸lo tienes que a帽adir la siguiente l铆nea al archivo, colocando la que ya hay en comentario, utilizando un '#' antes de la frase.

exportaci贸n JAVA_HOME=/usr/lib/JVM/java-8-openjdk amd64

nota: Dependiendo de la versi贸n de java que tiene instalado en la m谩quina, debe cambiar el 煤ltimo nombre de la ruta (java-8-openjdk-amd64). T铆picamente, s贸lo necesita cambiar el n煤mero de versi贸n de Java.

Apache Hadoop tiene muchos archivos de configuraci贸n. Estos archivos permiten varias configuraciones seg煤n las necesidades de cada usuario. Como vamos a configurar un simple nodo de un cl煤ster, basta con configurar los siguientes archivos:

1 – core-site.xml

hadoopusr @ ubuntu: ~ $ sudo gedit core-site.xml

A帽adir dentro de la etiqueta la siguiente propiedad:

<propiedad>
 <nombre>fs.default.name</nombre>
 <valor>hdfs://localhost:9000</valor>
</propiedad>

2. hdfs-site.xml

hadoopusr @ ubuntu: ~ $ sudo gedit hdfs-site.xml

A帽adir dentro de la etiqueta las siguientes propiedades:

<propiedad>
<nombre>dfs.replication</nombre>
<valor>1</valor>
</propiedad>
<propiedad>
<nombre>dfs.namenode.name.dir</nombre>
<valor>archivo:/usr/local/hadoop_tmp/hdfs/NameNode</valor>
</propiedad>
<propiedad>
<nombre>dfs.datanode.data.dir</nombre>
<valor>archivo:/usr/local/hadoop_tmp/hdfs/DataNode</valor>
</propiedad>

3. yarn-site.xml

hadoopusr @ ubuntu: ~ $ sudo gedit yarn-site.xml

A帽adir dentro de la etiqueta las siguientes propiedades:

<propiedad>
<nombre>yarn.nodemanager.aux-services</nombre>
<valor>mapreduce_shuffle</valor>
</propiedad>
<propiedad>
<nombre>yarn.nodemanager.aux-services.mapreduce.shuffle.class</nombre>               
<valor>org.apache.hadoop.mapred.ShuffleHandler</valor>
</propiedad>

4. Mapred-site.xml

Una vez que el nombre de archivo, por defecto, es mapred-site.xml.template, tendr谩 que cambiar el nombre del archivo a mapred-site.xml utilizando el siguiente comando:

 
hadoopusr @ ubuntu: ~ $ sudo cp /usr/local/hadoop/etc茅tera/hadoop/mapred-site.xml.template /usr/local/hadoop/etc茅tera/hadoop/mapred-site.xml

hadoopusr @ ubuntu: ~ $ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

Y s贸lo despu茅s es que pasa a la edici贸n …

hadoopusr @ ubuntu: ~ $ sudo gedit mapred-site.xml

A帽adir dentro de la etiqueta las siguientes propiedades:

<propiedad>
<nombre>mapreduce.framework.name</nombre>
<valor>hilo</valor>
</propiedad

Ahora vamos a crear directorios para el namenode y el datanode, para eso, basta con ejecutar los siguientes comandos:

hadoopusr @ ubuntu: ~ $ sudo mkdir -p /usr/local/hadoop_space/hdfs/NameNode
hadoopusr @ ubuntu: ~ $ sudo mkdir -p /usr/local/hadoop_space/hdfs/DataNode

Hechas las configuraciones en los archivos anteriores, vamos a formatear el namenode usando el siguiente comando, asignando primero la propiedad de la carpeta hadoop_space al usuario hadoopusr.

hadoopusr @ ubuntu: ~ $ sudo chown -R hadoopusr /usr/local/hadoop_space
hadoopusr @ ubuntu: ~ $ CD
hadoopusr @ ubuntu: ~ $ hdfs namenode -format

Por 煤ltimo, vamos a iniciar todos los servicios asociados al hadoop. Para ello, basta con ejecutar los siguientes comandos:

hadoopusr @ ubuntu: ~ $ start-dfs.sh
hadoopusr @ ubuntu: ~ $ start-yarn.sh

Para comprobar que todos los servicios se iniciaron correctamente, debe ejecutar el comando:

Para acceder a la interfaz de gesti贸n de Apache Hadoop basta con abrir el navegador e insertar la siguiente URL: http: // localhost: 8088

Si has podido llegar hasta aqu铆, puedes jactarse a todos tus amigos de que has conseguido instalar Apache Hadoop con 茅xito!

Ana Gomez

Ana G贸mez. Naci贸 en Asturias pero vive en Madrid desde hace ya varios a帽os. Me gusta de todo lo relacionado con los negocios, la empresa y los especialmente los deportes, estando especializada en deporte femenino y polideportivo. Tambi茅n me considero una Geek, amante de la tecnolog铆a los gadgets. Ana es la reportera encargada de cubrir competiciones deportivas de distinta naturaleza puesto que se trata de una editora con gran experiencia tanto en medios deportivos como en diarios generalistas online. Mi Perfil en Facebook:聽https://www.facebook.com/ana.gomez.029   Email de contacto: ana.gomez@noticiasrtv.com

Deja una respuesta

Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *