Best practices voor het implementeren van Hadoop Server op CentOS/RHEL 7 - Deel 1

In deze serie artikelen gaan we het hele Cloudera Hadoop Cluster Building gebouw behandelen met door Vendor en Industrial aanbevolen best practices.

OS installatie en het uitvoeren van OS niveau Vereisten zijn de eerste stappen om een Hadoop Cluster te bouwen. Hadoop kan draaien op de verschillende varianten van het Linux-platform: CentOS, RedHat, Ubuntu, Debian<, SUSE enz., In realtime productie zijn de meeste Hadoop Clusters gebouwd bovenop RHEL/CentOS, we zal CentOS 7 gebruiken voor demonstratie in deze serie tutorials.

In een organisatie kan de installatie van het besturingssysteem worden uitgevoerd met behulp van kickstart. Als het een cluster met 3 tot 4 knooppunten is, is handmatige installatie mogelijk, maar als we een groot cluster met meer dan 10 knooppunten bouwen, is het vervelend om de besturingssystemen één voor één te installeren. In dit scenario komt de Kickstart-methode in beeld, we kunnen doorgaan met de massa-installatie met behulp van kickstart.

Het behalen van goede prestaties van een Hadoop-omgeving is afhankelijk van het inrichten van de juiste hardware en software. Bij het bouwen van een Hadoop-productiecluster moet dus veel aandacht worden besteed aan hardware en software.

In dit artikel bespreken we verschillende benchmarks over de installatie van besturingssystemen en enkele best practices voor de implementatie van Cloudera Hadoop Cluster Server op CentOS/RHEL 7.

Belangrijke overweging en best practices voor de implementatie van Hadoop Server

Hieronder volgen de best practices voor het instellen van de implementatie van Cloudera Hadoop Cluster Server op CentOS/RHEL 7.

Hadoop-servers hebben geen standaard bedrijfsservers nodig om een cluster te bouwen; er is standaardhardware voor nodig.
In het productiecluster wordt het gebruik van 8 tot 12 gegevensschijven aanbevolen. Afhankelijk van de aard van de werklast moeten we hierover een beslissing nemen. Als het cluster voor rekenintensieve toepassingen is bedoeld, is het de beste werkwijze om 4 tot 6 schijven te hebben om I/O-problemen te voorkomen.
Gegevensschijven moeten bijvoorbeeld afzonderlijk worden gepartitioneerd, beginnend van /data01 tot /data10.
RAID-configuratie wordt niet aanbevolen voor werkknooppunten, omdat Hadoop zelf fouttolerantie op gegevens biedt door de blokken standaard in 3 te repliceren. JBOD is dus het beste voor werkknooppunten.
Voor masterservers is RAID 1 de beste praktijk.
Het standaardbestandssysteem op CentOS/RHEL 7.x is XFS. Hadoop ondersteunt XFS, ext3 en ext4. Het aanbevolen bestandssysteem is ext3, aangezien dit is getest op goede prestaties.
Alle servers moeten dezelfde OS-versie hebben, minstens dezelfde kleine release.
Het is de beste praktijk om homogene hardware te hebben (alle werkknooppunten moeten dezelfde hardwarekenmerken hebben (RAM, schijfruimte en core, enz.).
Afhankelijk van de clusterwerklast (Balanced Workload, Compute Intensive, I/O Intensive) en grootte, zal de resourceplanning (RAM, CPU) per server verschillen.

Zoek het onderstaande voorbeeld voor schijfpartitionering van de servers met een opslagcapaciteit van 24 TB.

CentOS 7 installeren voor Hadoop Server-implementatie

Dingen die u moet weten voordat u de CentOS 7-server voor Hadoop Server installeert.

Minimale installatie is voldoende voor Hadoop-servers (werkknooppunten), in sommige gevallen kan de GUI alleen worden geïnstalleerd voor masterservers of beheerservers waar we browsers kunnen gebruiken voor web-UI's van Management tools.
Het configureren van netwerken, hostnamen en andere OS-gerelateerde instellingen kan worden gedaan na de installatie van het besturingssysteem.
In realtime zullen serverleveranciers hun eigen console hebben om te communiceren en de servers te beheren. Dell-servers hebben bijvoorbeeld iDRAC, een apparaat dat is ingebed in servers. Met behulp van die iDRAC-interface kunnen we OS installeren met een OS-image op ons lokale systeem.

In dit artikel hebben we het besturingssysteem (CentOS 7) geïnstalleerd op de virtuele VMware-machine. Hier hebben we niet meerdere schijven om partities uit te voeren. CentOS is vergelijkbaar met RHEL (dezelfde functionaliteit), dus we zullen de stappen zien om CentOS te installeren.

1. Begin met het downloaden van de CentOS 7.x ISO-image naar uw lokale Windows-systeem en selecteer deze tijdens het opstarten van de virtuele machine. Selecteer ‘Installeer CentOS 7‘ zoals weergegeven.

2. Selecteer de Taal, standaard is Engels en klik op Doorgaan.

3. Softwareselectie – Selecteer ‘Minimale installatie’ en klik op ‘Gereed’.

4. Stel het rootwachtwoord in zoals dit ons wordt gevraagd in te stellen.

5. Installatiebestemming – Dit is de belangrijke stap om voorzichtig te zijn. We moeten de schijf selecteren waarop het besturingssysteem moet worden geïnstalleerd. Voor het besturingssysteem moet een speciale schijf worden geselecteerd. Klik op de ‘Installatiebestemming’ en selecteer de schijf. In realtime zullen er meerdere schijven aanwezig zijn, we moeten selecteren, bij voorkeur ‘sda‘.

6. Andere opslagopties – Kies de tweede optie (ik zal de partities configureren) om OS-gerelateerde partities te configureren, zoals /var, / var/log, /home, /tmp, /opt, /swap.

7. Zodra u klaar bent, begint u met de installatie.

8. Zodra de installatie is voltooid, start u de server opnieuw op.

9. Log in op de server en stel de hostnaam in.

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

Samenvatting

In dit artikel hebben we de installatiestappen van het besturingssysteem en de beste werkwijzen voor het partitioneren van bestandssystemen besproken. Dit zijn allemaal algemene richtlijnen. Afhankelijk van de aard van de werklast moeten we ons mogelijk op meer nuances concentreren om de beste prestaties van het cluster te bereiken. Clusterplanning is kunst voor de Hadoop-beheerder. In het volgende artikel zullen we dieper ingaan op de vereisten op besturingssysteemniveau en op het gebied van beveiliging.