728x90 스파크5 [Spark] Spark Streaming 실행 방식 안녕하세요. 이번 포스팅에서는 스파크 스트리밍의 실행 방식에 대하여 알아보겠습니다. 스파크 스트리밍의 개념에 대하여 궁금하신 분들은 아래 포스팅을 참고 바랍니다. Spark Streaming 이란? Spark Streaming 은 실시간으로 들어오는 데이터 처리를 위한 모듈로써 빅데이터가 만족해야하는 세 가지 요소 (*3V)중 속도(Velocity)에 대한 니즈 충족을 위해 등장했습니다. 스파크 스트리밍을 통하 seaweed-one.tistory.com 스파크 스트리밍은 어떤 과정을 거쳐 실행될까요? 스파크 스트리밍은 각 입력 소스마다 Receiver를 실행합니다. Receiver란 애플리케이션의 익스큐터들 내에서데이터를 모으고 RDD에 저장하는 테스크인데요. Receiver는 건별로 들어오는 데이터를 .. 2023. 1. 8. [Spark] Spark Streaming 의 종류 (DStream, Structured Streaming) 안녕하세요. 씨위드입니다. 오늘은 Spark Streaming의 종류에 대하여 알아보겠습니다. Spark Streaming은 DStream과 Structured Streaming으로 나눠집니다. 두 스트리밍에는 어떤 차이점이 있는지 알아보기 위하여 먼저 DStream에 대해 간단히 알아본 뒤 Structured Streaming에 대하여 조금 더 자세하게 알아보겠습니다. DStream DStream은 Discreatized Stream, 즉 불연속적 스트림입니다. 디스트림은 스파크의 코어인 RDD의 개념을 바탕으로 구축되었습니다. 카프카 등의 소스로부터 발생되는 데이터를 스파크에서 사용할 수 있도록 데이터의 형태를 재구성한 것이 바로 DStream입니다. DStream의 생성, 연산, 사용 DStream.. 2023. 1. 7. [Spark] Spark Streaming 이란? Spark Streaming 은 실시간으로 들어오는 데이터 처리를 위한 모듈로써 빅데이터가 만족해야하는 세 가지 요소 (*3V)중 속도(Velocity)에 대한 니즈 충족을 위해 등장했습니다. 스파크 스트리밍을 통하여 실시간으로 데이터를 받아들여 처리하고 분석할 수 있으며 소스(Kafka, HDFS 등) 로부터 실시간 스트리밍 데이터를 받아 처리할 수 있습니다. Spark Stream 아키텍쳐 spark는 일괄 처리를 지향하며 일괄 처리 기능을 실시간 데이터에 적용하기 위해 micro batch라 불리는 아키텍처를 사용합니다. 스파크 스트리밍은 특정 시간 간격 내에 유입된 데이터 블록을 끊어 RDD로 구성하고 아주 짧은 주기(ex.1초)로 배치처리를 진행합니다. 예로 워드카운트의 경우 들어오는 한 라인 .. 2022. 12. 21. [Spark] Spark Evalution Spark 에는 크게 두 가지 종류의 연산이 존재합니다. Transformation 과 Action 인데요, 두 가지로 나눠진 이유와 그 역할은 무엇인지 알아보겠습니다. 연산 분류 이유 두 가지 종류의 연산이 존재하는 이유를 이해하기 위해선 먼저 Spark 의 특징인 Lazy Evalution 의 개념을 알고 가야 합니다. Lazy Evalution 을 한국어로 번역하자면 게으른 연산이라고 해석할 수 있는데요. 게으른 연산 기법으로 인하여 Spark 는 연산 실행 계획 최적화가 가능합니다. 사용자가 입력한 연산들을 즉시 수행하지 않고 메타데이터에 연산이 요청되었다는 사실만 기록하고 연산의 가장 최적의 수행 방법을 수립해둡니다. action 함수가 호출되기 전까지는 실제 데이터 로딩 혹은 연산이 이루어지지.. 2022. 12. 13. 이전 1 2 다음 728x90