목차
1. 하둡 사용을 위한 계정 생성
2. JDK 다운로드
3. hadoop 다운로드
4. ssh 구성
5. 환경설정
6. 실행
준비물
- 가상머신 (노트북, 데스크톱, 서버로 대체해서 설치 가능)
- OS: CentOS 8 (CentOS 7 사용 가능)
설치
1. 하둡 사용을 위한 계정 생성
- 아이디, 비밀번호는 자유롭게 해도 됩니다.
- root 계정을 사용해도 되지만, 보안상 취약하므로 사용자 계정을 생성해서 사용합니다.
# useradd inoino
# passwd inoino
1.1 계정 생성 확인
# cat /etc/passwd | grep inoino
2. JDK 다운로드 (JDK 1.8)
- 오라클 페이지에서 JDK 다운로드 (rpm 파일 또는 tar.gz 파일)
or
명령어 입력하여 다운로드
jdk 버전이 계속 변경되므로, 예시에서 사용하는 명령어 일부가 달라질 수 있습니다.
설치 경로로 파일 이동
# mv jdk-8u231-linux-x64.tar.gz /usr/local/
압축 해제
# cd /usr/local
# tar zxvf jdk-8u231-linux-x64.tar.gz
이름 변경
# mv jsk1.8.0_231/ java
3. hadoop 설치
- 하둡 홈페이지에서 다운로드 (tar.gz 파일)
- 설치 진행
# 다운로드 받은 경로로 이동 후 압축 해제
$ tar zxvf hadoop-3.2.1.tar.gz
4. ssh 구성
- 서버의 개인키를 넣어준다.
- 사용자 계정으로 ssh-key 생성
$ ssh-keygen -t rsa
모두 default로 엔터 누르기
인증된 key 목록에 개인키 등록
$ cd ~/.ssh
$ cat id_rsa.pub > authorized_keys
$ chmod 640 authorized_keys
5. 환경설정
5.1 사용자 bashrc 파일에 내용 추가
$ vi ~/.bashrc
2, 3 에서 압축 해제한 경로로 잘 등록해야한다.
5.2 hadoop 환경설정
총 3개의 파일 수정 필요
config default 경로는 $HADOOP_HOME/etc/hadoop
각 configure 파일 open 후 configuration section에 내용 추가할 것
1. core-site.xml
주의사항: fs.defaultFS의 value 값을 보면 namenode라고 되어있음.
namenode라는 이름은 자신의 /etc/hosts 설정에 따라 다르게 변경될 수 있음.
저는 제 ip를 namenode라는 이름으로 등록시켜 두었음.
2. hdfs-site.xml
dfs.replication: 데이터 복제 횟수 (2로 설정 시 1개 파일 저장하면 2개로 저장됨)
여기에서 namenode와 datanode는 각각의 node들에서 저장할 경로를 지정한다.
물론, 디렉토리 생성은 필수
mkdir -p $HADOOP_HOME/hdfs/namenode
mkdir -p $HADOOP_HOME/hdfs/datanode
3. mapred-site.xml
mapreduce framework 설정 (yarn 사용)
4. yarn-site.xml
6. 실행
최초 실행 시 hadoop namenode를 format 하고 시작한다.
$ hdfs namenode -format
namenode, datanode 실행
$ start-dfs.sh
yarn 실행
$ start-yarn.sh
실행확인
jps
아래의 목록이 나오면 성공
Jps
NameNode
SecondaryNameNode
DataNode
ResourceManager
NodeManager
'BigData > Hadoop' 카테고리의 다른 글
Hadoop NameNode HA (0) | 2022.02.19 |
---|---|
Hadoop 이란 무엇인가? (0) | 2019.11.28 |