Apache Hadoop installeren en configureren op een enkel knooppunt in CentOS 7

Apache Hadoop is een Open Source-framework dat is gebouwd voor gedistribueerde Big Data-opslag en -verwerking van gegevens over computerclusters. Het project is gebaseerd op de volgende onderdelen:

Hadoop Common – het bevat de Java-bibliotheken en hulpprogramma's die nodig zijn voor andere Hadoop-modules.
HDFS – Hadoop Distributed File System – Een op Java gebaseerd schaalbaar bestandssysteem verdeeld over meerdere knooppunten.
MapReduce – YARN-framework voor parallelle big data-verwerking.
Hadoop YARN: een raamwerk voor clusterresourcebeheer.

Dit artikel beschrijft hoe je Apache Hadoop kunt installeren op een cluster met één knooppunt in CentOS 7 (werkt ook voor RHEL 7 en Fedora 23+ > versies). Dit type configuratie wordt ook wel Hadoop Pseudo-Distributed Mode genoemd.

Stap 1: Installeer Java op CentOS 7

1. Voordat u doorgaat met de Java-installatie, logt u eerst in met rootgebruiker of een gebruiker met rootrechten en stelt u de hostnaam van uw machine in met de volgende opdracht.

hostnamectl set-hostname master

Voeg ook een nieuw record toe aan het hosts-bestand met de FQDN van uw eigen machine om naar het IP-adres van uw systeem te verwijzen.

vi /etc/hosts

Voeg de onderstaande regel toe:

192.168.1.41 master.hadoop.lan

Vervang de bovenstaande hostnaam- en FQDN-records door uw eigen instellingen.

2. Ga vervolgens naar de Oracle Java-downloadpagina en download de nieuwste versie van Java SE Development Kit 8 op uw systeem met behulp van curl commando:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Nadat de binaire download van Java is voltooid, installeert u het pakket door de onderstaande opdracht te geven:

rpm -Uvh jdk-8u92-linux-x64.rpm

Stap 2: Installeer Hadoop Framework in CentOS 7

4. Maak vervolgens een nieuw gebruikersaccount op uw systeem aan zonder rootbevoegdheden. We zullen het gebruiken voor het Hadoop-installatiepad en de werkomgeving. De nieuwe homedirectory van het account bevindt zich in de map /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. Ga bij de volgende stap naar de Apache Hadoop-pagina om de link voor de nieuwste stabiele versie op te halen en het archief op uw systeem te downloaden.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Pak het archief uit en kopieer de mapinhoud naar het thuispad van het Hadoop-account. Zorg er ook voor dat u de machtigingen voor gekopieerde bestanden dienovereenkomstig wijzigt.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Log vervolgens in met de hadoop-gebruiker en configureer Hadoop en Java-omgevingsvariabelen op uw systeem door de .bash_profile bestand.

su - hadoop
vi .bash_profile

Voeg de volgende regels toe aan het einde van het bestand:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Initialiseer nu de omgevingsvariabelen en controleer hun status door de onderstaande opdrachten uit te voeren:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Configureer ten slotte op ssh-sleutel gebaseerde authenticatie voor het hadoop-account door de onderstaande opdrachten uit te voeren (vervang de hostnaam of FQDN > overeenkomstig het ssh-copy-id commando).

Laat ook de wachtwoordzin leeg om automatisch in te loggen via ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan