hadoop 2

Kafka connect를 활용하여 HDFS에 데이터 넣기

이전에는 Kafka 데이터를 Elasticsearch에 넣어봤는데, 이번에는 HDFS에 넣어보고자 한다. 이전글: Kafka connect를 활용하여 Elasticsearch에 데이터 넣기 Kafka connect를 활용하여 Elasticsearch에 데이터 넣기 Kafka, Elasticsearch 설치는 본문에서 다루지 않는다. (개념은 생략하며 sink connector만 다룬다.) 개요 아주 간략하게 Kafka Connect에 대해서만 설명하고 넘어가도록 한다. Kafka Connect를 사용하기 위해서는. inoino9.tistory.com 설정 connect-distributed.properties 파일을 사용한다. (기본으로 제공된 파일 그대로 사용) 실행 bin/connect-distrib..

BigData/Kafka 2023.03.14

Hadoop 이란 무엇인가?

빅데이터 처리를 위한 기반인 Hadoop에 대해서 알아보자. Hadoop은 2011년 12월 10일 출시하여, 현재 3.X 버전까지 출시됐다. 본 게시물에서는 오픈 소스 버전으로 소개하고자 한다. Hadoop - 최초 발표일: 2011년 12월 10일 - 안정화 버전: 3.0.0 (2017년 12월 13일) - 프로그래밍 언어: 자바 - 라이선스: 아파치 라이선스 2.0 Hadoop의 탄생 배경? - 구글의 분산 파일 시스템(GFS) 논문 공개 이후, 그 구조에 대응하는 체계로 개발됨 하둡 분산 파일 시스템: HDFS, Hadoop distributed file system 특징 대용량 파일들을 나눠서 저장한다. - 여러 서버에 데이터를 중복하여 저장한다. (안정성 확보) - 호스트 서버의 RAID 구성..

BigData/Hadoop 2019.11.28