BigData/Hadoop

Hadoop 이란 무엇인가?

kih5893 2019. 11. 28. 22:54

빅데이터 처리를 위한 기반인 Hadoop에 대해서 알아보자.

Hadoop은 2011년 12월 10일 출시하여, 현재 3.X 버전까지 출시됐다.
본 게시물에서는 오픈 소스 버전으로 소개하고자 한다.

 

 


Hadoop
- 최초 발표일: 2011년 12월 10일
- 안정화 버전: 3.0.0 (2017년 12월 13일)
- 프로그래밍 언어: 자바
- 라이선스: 아파치 라이선스 2.0

 

 


Hadoop의 탄생 배경?

 - 구글의 분산 파일 시스템(GFS) 논문 공개 이후, 그 구조에 대응하는 체계로 개발됨

 

APACHE Hadoop

 


하둡 분산 파일 시스템: HDFS, Hadoop distributed file system 특징

 

대용량 파일들을 나눠서 저장한다.
 - 여러 서버에 데이터를 중복하여 저장한다. (안정성 확보)
 - 호스트 서버의 RAID 구성 없이 파일을 잘~ 처리할 수 있다.
 - 마스터/슬레이브 구조를 가진다. (하둡에서는 이를 네임 노드와 데이터 노드로 구분하여 사용한다.)

 

 


하둡의 가장 큰 특징은 분산저장과 병렬처리다.


 

 

왜 하둡을 써야 할까?

 

오픈소스다, 일단 우리는 돈이 없다.. 궁핍해..

첫째, 오픈소스이므로 비용에 대한 부담이 적다.

 

둘째, 여러 서버에 중복된 데이터를 나누어 저장할 수 있으므로, 서버에 장애가 생겨도 대응하기 용이하다.

 

셋째, 대용량 데이터를 처리하기에 좋다. (배치 작업이 좋다, 분산 처리 좋다)

 

넷째,스템 중단 없이, 장비만 있다면 Scale Out이 쉽다.

 

 

 

물론, 하둡이 좋다고 해도 단점이 있다.

 

첫째, HDFS 버전별 호환이 잘 안된다.

버전에 따라 서비스 다운 없이 업그레이드 가능한 경우가 있고,

서비스 중지 후 업그레이드 해야 하는 경우도 있고,

namenode Format 하고 사용해야 하는 경우도 있다.

 

둘째, 설정이 쉽지 않다.

처음시작할 때는 설정도 어렵고, 관리도 어렵다.

 

셋째, 실시간 처리에 부적합하다.

배치 처리에는 용이하나, 실시간 처리 목적은 아니다.

 

넷째, 버전이 너무 많다.

버전이 많은 것 까지는 이해할 수 있으나, 

해당 버전을 사용하는 사용자 수가 줄거나 커뮤니티가 활발하지 않으면

해당 버전의 업데이트는 중단된다.

 

 

 

하둡의 버전별 특징

(버전별 큰 특징만 나열)

 

V1

최초 버전

분산 저장, 병렬 처리 지원

 

V2

YARN의 도입을 통한 클러스터, 작업 관리

 

V3

Erasure Coding 도입

(간단하게, 디스크 저장 공간을 줄여서 디스크 가격을 아낄 수 있음)

 

반응형

'BigData > Hadoop' 카테고리의 다른 글

Hadoop NameNode HA  (0) 2022.02.19
Hadoop 을 설치해보자 (단일서버)  (0) 2019.11.28