728x90 실시간 데이터 처리1 [Spark] Spark Streaming 이란? Spark Streaming 은 실시간으로 들어오는 데이터 처리를 위한 모듈로써 빅데이터가 만족해야하는 세 가지 요소 (*3V)중 속도(Velocity)에 대한 니즈 충족을 위해 등장했습니다. 스파크 스트리밍을 통하여 실시간으로 데이터를 받아들여 처리하고 분석할 수 있으며 소스(Kafka, HDFS 등) 로부터 실시간 스트리밍 데이터를 받아 처리할 수 있습니다. Spark Stream 아키텍쳐 spark는 일괄 처리를 지향하며 일괄 처리 기능을 실시간 데이터에 적용하기 위해 micro batch라 불리는 아키텍처를 사용합니다. 스파크 스트리밍은 특정 시간 간격 내에 유입된 데이터 블록을 끊어 RDD로 구성하고 아주 짧은 주기(ex.1초)로 배치처리를 진행합니다. 예로 워드카운트의 경우 들어오는 한 라인 .. 2022. 12. 21. 이전 1 다음 728x90