Hoe Hadoop Single Node Cluster (Pseudonode) op CentOS 7 te installeren

Hadoop is een open-sourceframework dat veel wordt gebruikt om met Bigdata om te gaan. De meeste Bigdata/Data Analytics-projecten worden opgebouwd bovenop het Hadoop Eco-systeem. Het bestaat uit twee lagen: één is voor Gegevens opslaan en een andere is voor Gegevens verwerken.

Opslag wordt verzorgd door een eigen bestandssysteem genaamd HDFS (Hadoop Distributed Filesystem) en Verwerking wordt uitgevoerd verzorgd door YARN (Nog een brononderhandelaar). Mapreduce is de standaardverwerkingsengine van het Hadoop Eco-systeem.

Dit artikel beschrijft het proces voor het installeren van de Pseudonode-installatie van Hadoop, waar alle daemons (JVM's) zullen zijn met Single Node Cluster op CentOS 7.

Dit is vooral bedoeld voor beginners om Hadoop te leren. In realtime wordt Hadoop geïnstalleerd als een cluster met meerdere knooppunten, waarbij de gegevens als blokken over de servers worden verdeeld en de taak parallel wordt uitgevoerd.

Vereisten

Een minimale installatie van CentOS 7-server.
Java v1.8-release.
Hadoop 2.x stabiele release.

Op deze pagina

Java installeren op CentOS 7
Wachtwoordloos inloggen instellen op CentOS 7
Hoe Hadoop Single Node te installeren in CentOS 7
Hoe Hadoop te configureren in CentOS 7
Het HDFS-bestandssysteem formatteren via de NameNode

Java installeren op CentOS 7

1. Hadoop is een ecosysteem dat bestaat uit Java. Om Hadoop te kunnen installeren, is Java verplicht op ons systeem geïnstalleerd.

yum install java-1.8.0-openjdk

2. Controleer vervolgens de geïnstalleerde versie van Java op het systeem.

java -version

Configureer wachtwoordloos inloggen op CentOS 7

We moeten ssh op onze machine hebben geconfigureerd. Hadoop zal knooppunten beheren met behulp van SSH. Het hoofdknooppunt gebruikt een SSH-verbinding om zijn slaafknooppunten te verbinden en bewerkingen zoals starten en stoppen uit te voeren.

We moeten ssh zonder wachtwoord instellen, zodat de master zonder wachtwoord met slaven kan communiceren via ssh. Anders moet u voor elke verbindingsinstelling het wachtwoord invoeren.

In dit enkele knooppunt zijn Master services (Namenode, Secundaire Namenode en Resource Manager) en Slave< services (Datanode & Nodemanager) zullen worden uitgevoerd als afzonderlijke JVM's. Ook al is het een enkelvoudig knooppunt, we hebben een ssh zonder wachtwoord nodig om ervoor te zorgen dat Master Slave communiceert zonder authenticatie.

3. Stel een wachtwoordloze SSH-aanmelding in met behulp van de volgende opdrachten op de server.

ssh-keygen
ssh-copy-id -i localhost

4. Nadat u wachtwoordloze SSH-aanmelding heeft geconfigureerd, probeert u opnieuw in te loggen. U wordt verbonden zonder wachtwoord.

ssh localhost

Hadoop installeren in CentOS 7

5. Ga naar de Apache Hadoop-website en download de stabiele versie van Hadoop met behulp van de volgende wget-opdracht.

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz

6. Voeg vervolgens de omgevingsvariabelen Hadoop toe aan het bestand ~/.bashrc, zoals weergegeven.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Nadat u omgevingsvariabelen aan ~/.bashrc het bestand hebt toegevoegd, bront u het bestand en verifieert u de Hadoop door de volgende opdrachten uit te voeren.

source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version

Hadoop configureren in CentOS 7

We moeten onderstaande Hadoop-configuratiebestanden configureren om in uw machine te passen. In Hadoop heeft elke service zijn eigen poortnummer en zijn eigen directory om de gegevens op te slaan.

Hadoop-configuratiebestanden – core-site.xml, hdfs-site.xml, mapred-site.xml en garen-site.xml

8. Eerst moeten we JAVA_HOME en Hadoop pad in het bestand hadoop-env.sh bijwerken, zoals weergegeven .

cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh

Voer de volgende regel in aan het begin van het bestand.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Wijzig vervolgens het bestand core-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml

Plak het volgende tussen <configuration>-tags, zoals weergegeven.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Maak de onderstaande mappen aan onder de tecmint homemap van de gebruiker, die zal worden gebruikt voor NN en DN opslag.

mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name

10. Wijzig vervolgens het bestand hdfs-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml

Plak het volgende tussen <configuration>-tags, zoals weergegeven.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Wijzig opnieuw het bestand mapred-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

Plak het volgende tussen <configuration>-tags, zoals weergegeven.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Pas ten slotte het bestand yarn-site.xml aan.

cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml

Plak het volgende tussen <configuration>-tags, zoals weergegeven.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

Het HDFS-bestandssysteem formatteren via de NameNode

13. Voordat we het Cluster starten, moeten we de Hadoop NN formatteren in ons lokale systeem waarop het is geïnstalleerd. Meestal gebeurt dit in de beginfase voordat het cluster voor de eerste keer wordt gestart.

Het formatteren van de NN zal leiden tot gegevensverlies in de NN-metastore, dus we moeten voorzichtiger zijn. We mogen NN niet formatteren terwijl het cluster actief is, tenzij dit opzettelijk nodig is.

cd $HADOOP_PREFIX
bin/hadoop namenode -format

14. Start de NameNode daemon en DataNode daemon: (poort 50070).

cd $HADOOP_PREFIX
sbin/start-dfs.sh

15. Start de ResourceManager daemon en NodeManager daemon: (poort 8088).

sbin/start-yarn.sh

16. Om alle services te stoppen.

sbin/stop-dfs.sh
sbin/stop-dfs.sh

Samenvatting

Samenvatting
In dit artikel hebben we het stapsgewijze proces doorlopen om Hadoop Pseudonode (Single Node) Cluster in te stellen. Als je basiskennis van Linux hebt en deze stappen volgt, is het cluster binnen 40 minuten UP.

Dit kan erg handig zijn voor de beginner om Hadoop te leren en te oefenen, of deze standaardversie van Hadoop kan worden gebruikt voor ontwikkelingsdoeleinden. Als we een realtime cluster willen hebben, hebben we minimaal drie fysieke servers nodig of moeten we Cloud inrichten voor meerdere servers.