BigData/Hadoop 3

Hadoop NameNode HA

개요 Hadoop의 단점 중 하나는 NameNode(이하 NN)가 비정상 종료되었을 때이다. 기본적으로 DataNode를 확장하면 무한한(?) 확장을 할 수 있지만, NN에 문제가 생길 경우 여태껏 저장한 모든 데이터를 잃을 수 있을 정도로 치명적이다. 그렇기 때문에 이를 방지하고자 Hadoop도 버전업을 하면서 NN 이중화 기능이 추가되었다. 이중화 시스템 장애 등을 대비하기 위해 같은 시스템을 2개 이상으로 구성하여 장애 발생 즉시 대체하여 가용성을 유지하기 위한 구조이다. 중요한 장비일수록 이중, 삼중, 그 이상으로 구성하기도 한다. 동작 방식으로는 Active-Active와 Active-Standby가 있다. NN 이중화 NN 이중화는 말 그대로 NN을 2개 이상을 만들어서 안정성을 확보하는 것이..

BigData/Hadoop 2022.02.19

Hadoop 을 설치해보자 (단일서버)

목차 1. 하둡 사용을 위한 계정 생성 2. JDK 다운로드 3. hadoop 다운로드 4. ssh 구성 5. 환경설정 6. 실행 준비물 - 가상머신 (노트북, 데스크톱, 서버로 대체해서 설치 가능) - OS: CentOS 8 (CentOS 7 사용 가능) 설치 1. 하둡 사용을 위한 계정 생성 - 아이디, 비밀번호는 자유롭게 해도 됩니다. - root 계정을 사용해도 되지만, 보안상 취약하므로 사용자 계정을 생성해서 사용합니다. # useradd inoino # passwd inoino 1.1 계정 생성 확인 # cat /etc/passwd | grep inoino 2. JDK 다운로드 (JDK 1.8) - 오라클 페이지에서 JDK 다운로드 (rpm 파일 또는 tar.gz 파일) or 명령어 입력하여 ..

BigData/Hadoop 2019.11.28

Hadoop 이란 무엇인가?

빅데이터 처리를 위한 기반인 Hadoop에 대해서 알아보자. Hadoop은 2011년 12월 10일 출시하여, 현재 3.X 버전까지 출시됐다. 본 게시물에서는 오픈 소스 버전으로 소개하고자 한다. Hadoop - 최초 발표일: 2011년 12월 10일 - 안정화 버전: 3.0.0 (2017년 12월 13일) - 프로그래밍 언어: 자바 - 라이선스: 아파치 라이선스 2.0 Hadoop의 탄생 배경? - 구글의 분산 파일 시스템(GFS) 논문 공개 이후, 그 구조에 대응하는 체계로 개발됨 하둡 분산 파일 시스템: HDFS, Hadoop distributed file system 특징 대용량 파일들을 나눠서 저장한다. - 여러 서버에 데이터를 중복하여 저장한다. (안정성 확보) - 호스트 서버의 RAID 구성..

BigData/Hadoop 2019.11.28