BigData/Kafka 5

Kafka 자주 사용하는 명령어 정리

topic 생성: ./kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test-topic topic list 확인: ./kafka-topics.sh --list --bootstrap-server localhost:9092 console에서 topic에 data 전달: ./kafka-console-producer.sh --bootstrap-server localhost:9092 --topic test-topic '>'가 나오면 문자열 입력 데이터 개수 확인: ./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list ..

BigData/Kafka 2023.03.15

Kafka connect를 활용하여 HDFS에 데이터 넣기

이전에는 Kafka 데이터를 Elasticsearch에 넣어봤는데, 이번에는 HDFS에 넣어보고자 한다. 이전글: Kafka connect를 활용하여 Elasticsearch에 데이터 넣기 Kafka connect를 활용하여 Elasticsearch에 데이터 넣기 Kafka, Elasticsearch 설치는 본문에서 다루지 않는다. (개념은 생략하며 sink connector만 다룬다.) 개요 아주 간략하게 Kafka Connect에 대해서만 설명하고 넘어가도록 한다. Kafka Connect를 사용하기 위해서는. inoino9.tistory.com 설정 connect-distributed.properties 파일을 사용한다. (기본으로 제공된 파일 그대로 사용) 실행 bin/connect-distrib..

BigData/Kafka 2023.03.14

Kafka connect를 활용하여 Elasticsearch에 데이터 넣기

Kafka, Elasticsearch 설치는 본문에서 다루지 않는다. (개념은 생략하며 sink connector만 다룬다.) 개요 아주 간략하게 Kafka Connect에 대해서만 설명하고 넘어가도록 한다. Kafka Connect를 사용하기 위해서는 2가지가 필요하다. 1. Kafka Connect --> 메인, 총괄 역할 2. Kafka Connector --> 실제 파싱 sink 해주는 역할 ※ 이름은 비슷한데 용도는 다르다. (이론적으로 두 개가 다르다는 것은 알고 있었는데 어떻게 설치하는지 감이 안왔었다.) Kafka Connect는 Apache Kafka를 설치하면 bin 밑에 들어있다. (이 과정에서 약 3시간 동안 삽질..) 당연히 Connect 도 받아야 하는줄알고 열심히 Searc 했..

BigData/Kafka 2021.08.04

(해결X) Kafka producer memory buffer issue

이슈 => Kafka producer를 통해 데이터를 생성할 때 memory buffer 크기에 도달하면 일시 hang이 걸린다. 풀어서 설명하면 다음과 같다. Ex 1) buffer.memory=2 일 때 데이터 크기가 1인 데이터 send 첫 번째 send (성공 - buffer 에만 전송된 상태, broker로 전송되지 않은 상태인 것으로 추정) 두 번째 send (성공 - buffer 에만 전송된 상태, broker로 전송되지 않은 상태인 것으로 추정) 세 번째 send (대기 약 5초) 5초가 지난 시점에 buffer에 있는 데이터가 broker -> topic 저장되고 대기가 풀리면서 다음 send들이 모두 성공한다. Ex 2) buffer.memory=2 일 때 데이터 크기가 3인 데이터 s..

BigData/Kafka 2021.07.22

실시간 데이터 처리를 위한 Kafka에 대해 알아보자

초당 수십만 아니 그 이상의 데이터가 들어온다면 그것을 어떻게 처리할 수 있을까? 하나라도 흘린다면 로그 정합성에 문제가 생길테고... 유실된 정보에 대한 책임은 어떻게... 그렇다면 우선 데이터를 다 받는 것부터 해야하지 않을까? 대량의 로그를 처리하기 위해 고민하다가 실시간 메시지 큐 형태의 Kafka를 알게되었다. Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies. 카프카는 실시간 데이터를 처리하는데 사용되며, 확장도 좋고 속도도 ..

BigData/Kafka 2019.12.04