BigData/Hadoop

Hadoop 을 설치해보자 (단일서버)

kih5893 2019. 11. 28. 23:49

목차

1. 하둡 사용을 위한 계정 생성

2. JDK 다운로드

3. hadoop 다운로드

4. ssh 구성

5. 환경설정

6. 실행

 

 

 

준비물

- 가상머신 (노트북, 데스크톱, 서버로 대체해서 설치 가능)

- OS: CentOS 8 (CentOS 7 사용 가능)

 

 

 

설치

 

1. 하둡 사용을 위한 계정 생성

- 아이디, 비밀번호는 자유롭게 해도 됩니다.

- root 계정을 사용해도 되지만, 보안상 취약하므로 사용자 계정을 생성해서 사용합니다.

 

# useradd inoino

# passwd inoino

 

 

 

1.1 계정 생성 확인

 

# cat /etc/passwd | grep inoino

 

 

 

2. JDK 다운로드 (JDK 1.8)

- 오라클 페이지에서 JDK 다운로드 (rpm 파일 또는 tar.gz 파일)

or

명령어 입력하여 다운로드 

JDK 다운로드 명령어 예시

jdk 버전이 계속 변경되므로, 예시에서 사용하는 명령어 일부가 달라질 수 있습니다.

 

설치 경로로 파일 이동

# mv jdk-8u231-linux-x64.tar.gz /usr/local/

 

압축 해제

# cd /usr/local

# tar zxvf jdk-8u231-linux-x64.tar.gz

 

이름 변경

# mv jsk1.8.0_231/ java

 

 

 

3. hadoop 설치

- 하둡 홈페이지에서 다운로드 (tar.gz 파일)

- 설치 진행

 

# 다운로드 받은 경로로 이동 후 압축 해제

$ tar zxvf hadoop-3.2.1.tar.gz

 

 

 

4. ssh 구성

- 서버의 개인키를 넣어준다.

- 사용자 계정으로 ssh-key 생성

 

$ ssh-keygen -t rsa

모두 default로 엔터 누르기

 

인증된 key 목록에 개인키 등록

$ cd ~/.ssh

$ cat id_rsa.pub > authorized_keys

$ chmod 640 authorized_keys

 

 

 

5. 환경설정

 

5.1 사용자 bashrc 파일에 내용 추가

$ vi ~/.bashrc

bashrc 추가 기입 내용

 

2, 3 에서 압축 해제한 경로로 잘 등록해야한다.

 

5.2 hadoop 환경설정

 

총 3개의 파일 수정 필요

config default 경로는 $HADOOP_HOME/etc/hadoop

 

각 configure 파일 open 후 configuration section에 내용 추가할 것

 

 

1. core-site.xml

core.xml

 

주의사항: fs.defaultFS의 value 값을 보면 namenode라고 되어있음.

namenode라는 이름은 자신의 /etc/hosts 설정에 따라 다르게 변경될 수 있음.

 

저는 제 ip를 namenode라는 이름으로 등록시켜 두었음.

 

 

2. hdfs-site.xml

hdfs-site.xml

dfs.replication: 데이터 복제 횟수 (2로 설정 시 1개 파일 저장하면 2개로 저장됨)

 

여기에서 namenode와 datanode는 각각의 node들에서 저장할 경로를 지정한다.

물론, 디렉토리 생성은 필수

mkdir -p $HADOOP_HOME/hdfs/namenode

mkdir -p $HADOOP_HOME/hdfs/datanode

 

 

3. mapred-site.xml

mapred-site.xml

mapreduce framework 설정 (yarn 사용)

 

 

4. yarn-site.xml

 

yarn-site.xml

 

 

6. 실행

 

최초 실행 시 hadoop namenode를 format 하고 시작한다.

 

$ hdfs namenode -format

 

namenode, datanode 실행

$ start-dfs.sh

 

yarn 실행

$ start-yarn.sh

 

실행확인

jps

 

아래의 목록이 나오면 성공

Jps
NameNode
SecondaryNameNode
DataNode
ResourceManager
NodeManager

 

반응형

'BigData > Hadoop' 카테고리의 다른 글

Hadoop NameNode HA  (0) 2022.02.19
Hadoop 이란 무엇인가?  (0) 2019.11.28