728x90 streaming data2 [Spark] Spark Streaming 이란? Spark Streaming 은 실시간으로 들어오는 데이터 처리를 위한 모듈로써 빅데이터가 만족해야하는 세 가지 요소 (*3V)중 속도(Velocity)에 대한 니즈 충족을 위해 등장했습니다. 스파크 스트리밍을 통하여 실시간으로 데이터를 받아들여 처리하고 분석할 수 있으며 소스(Kafka, HDFS 등) 로부터 실시간 스트리밍 데이터를 받아 처리할 수 있습니다. Spark Stream 아키텍쳐 spark는 일괄 처리를 지향하며 일괄 처리 기능을 실시간 데이터에 적용하기 위해 micro batch라 불리는 아키텍처를 사용합니다. 스파크 스트리밍은 특정 시간 간격 내에 유입된 데이터 블록을 끊어 RDD로 구성하고 아주 짧은 주기(ex.1초)로 배치처리를 진행합니다. 예로 워드카운트의 경우 들어오는 한 라인 .. 2022. 12. 21. Apache Kafka 란? Apache Kafka 카프카란 무엇일까요? 카프카는 대용량 실시간 스트리밍 데이터 처리를 위해 사용하는 메시징 시스템이에요. Pub-Sub모델 구조를 이용하고 있습니다. Pub-Sub 모델이란 Publish/Subscribe( 발행/구독 )의 줄임말로 메시지 기반의 미들웨어 시스템입니다. publisher 는 어떤 subscriber 가 있는지 모르는 상태에서 topic 을 통해 메시지를 카테고리화 하여 전송합니다. 반대로 subscriber 는 publisher 에 대한 정보 없이 자신의 Interest 에 맞는 메시지만을 전송받습니다. 그럼 카프카는 어떤 영역에서 활용될 수 있을까요? 아래에서 알아보겠습니다. Kafka 활용 사례 증권 거래소, 은행, 보험 등에서 실시간으로 결제 및 금융 거래를 처.. 2022. 12. 6. 이전 1 다음 728x90