빅데이터 3

실시간 데이터 처리를 위한 Kafka에 대해 알아보자

초당 수십만 아니 그 이상의 데이터가 들어온다면 그것을 어떻게 처리할 수 있을까? 하나라도 흘린다면 로그 정합성에 문제가 생길테고... 유실된 정보에 대한 책임은 어떻게... 그렇다면 우선 데이터를 다 받는 것부터 해야하지 않을까? 대량의 로그를 처리하기 위해 고민하다가 실시간 메시지 큐 형태의 Kafka를 알게되었다. Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies. 카프카는 실시간 데이터를 처리하는데 사용되며, 확장도 좋고 속도도 ..

BigData/Kafka 2019.12.04

Hadoop 을 설치해보자 (단일서버)

목차 1. 하둡 사용을 위한 계정 생성 2. JDK 다운로드 3. hadoop 다운로드 4. ssh 구성 5. 환경설정 6. 실행 준비물 - 가상머신 (노트북, 데스크톱, 서버로 대체해서 설치 가능) - OS: CentOS 8 (CentOS 7 사용 가능) 설치 1. 하둡 사용을 위한 계정 생성 - 아이디, 비밀번호는 자유롭게 해도 됩니다. - root 계정을 사용해도 되지만, 보안상 취약하므로 사용자 계정을 생성해서 사용합니다. # useradd inoino # passwd inoino 1.1 계정 생성 확인 # cat /etc/passwd | grep inoino 2. JDK 다운로드 (JDK 1.8) - 오라클 페이지에서 JDK 다운로드 (rpm 파일 또는 tar.gz 파일) or 명령어 입력하여 ..

BigData/Hadoop 2019.11.28

Hadoop 이란 무엇인가?

빅데이터 처리를 위한 기반인 Hadoop에 대해서 알아보자. Hadoop은 2011년 12월 10일 출시하여, 현재 3.X 버전까지 출시됐다. 본 게시물에서는 오픈 소스 버전으로 소개하고자 한다. Hadoop - 최초 발표일: 2011년 12월 10일 - 안정화 버전: 3.0.0 (2017년 12월 13일) - 프로그래밍 언어: 자바 - 라이선스: 아파치 라이선스 2.0 Hadoop의 탄생 배경? - 구글의 분산 파일 시스템(GFS) 논문 공개 이후, 그 구조에 대응하는 체계로 개발됨 하둡 분산 파일 시스템: HDFS, Hadoop distributed file system 특징 대용량 파일들을 나눠서 저장한다. - 여러 서버에 데이터를 중복하여 저장한다. (안정성 확보) - 호스트 서버의 RAID 구성..

BigData/Hadoop 2019.11.28