본문 바로가기
728x90

Apache Spark8

[Spark] Spark Streaming 실행 방식 안녕하세요. 이번 포스팅에서는 스파크 스트리밍의 실행 방식에 대하여 알아보겠습니다. 스파크 스트리밍의 개념에 대하여 궁금하신 분들은 아래 포스팅을 참고 바랍니다. Spark Streaming 이란? Spark Streaming 은 실시간으로 들어오는 데이터 처리를 위한 모듈로써 빅데이터가 만족해야하는 세 가지 요소 (*3V)중 속도(Velocity)에 대한 니즈 충족을 위해 등장했습니다. 스파크 스트리밍을 통하 seaweed-one.tistory.com 스파크 스트리밍은 어떤 과정을 거쳐 실행될까요? 스파크 스트리밍은 각 입력 소스마다 Receiver를 실행합니다. Receiver란 애플리케이션의 익스큐터들 내에서데이터를 모으고 RDD에 저장하는 테스크인데요. Receiver는 건별로 들어오는 데이터를 .. 2023. 1. 8.
[Spark] Spark Streaming 의 종류 (DStream, Structured Streaming) 안녕하세요. 씨위드입니다. 오늘은 Spark Streaming의 종류에 대하여 알아보겠습니다. Spark Streaming은 DStream과 Structured Streaming으로 나눠집니다. 두 스트리밍에는 어떤 차이점이 있는지 알아보기 위하여 먼저 DStream에 대해 간단히 알아본 뒤 Structured Streaming에 대하여 조금 더 자세하게 알아보겠습니다. DStream DStream은 Discreatized Stream, 즉 불연속적 스트림입니다. 디스트림은 스파크의 코어인 RDD의 개념을 바탕으로 구축되었습니다. 카프카 등의 소스로부터 발생되는 데이터를 스파크에서 사용할 수 있도록 데이터의 형태를 재구성한 것이 바로 DStream입니다. DStream의 생성, 연산, 사용 DStream.. 2023. 1. 7.
[Spark] Spark Cluster Manager Stand Alone spark 에서 자체적으로 제공하는 기능입니다. 클러스터 매니저로 각 노드에서 하나의 *익스큐터만 실행 가능한데요. 클러스터 매니저와 스파크 콘텍스트가 연결되면 각 클러스터 내부의 워커 노드에서 익스큐터를 얻게 되며 스파크만 돌릴 경우 다른 클러스터 매니저들이 제공하는 거의 모든 기능을 제공합니다. stand alone 클러스터 모드는 현재 애플리케이션 전체에서 간단한 FIFO 스케줄러만 지원하지만 동시 사용자를 설정하려면 각 응용프로그램에서 사용할 최대 리소스 수 설정이 가능하지만 기본 설정으로 사용할 시 클러스터의 모든 코어를 사용함으로 하나의 애플리케이션만 실행하는 것이 합리적입니다. 스케줄러는 마스터를 사용해 스케줄링 결정을 내리고 이는 단일 실패 지점을 생성하는데요 여기서 .. 2022. 12. 16.
[Spark] Spark Deploy Mode 안녕하세요. 오늘은 스파크의 배포 방식에 대하여 알아보려고 합니다. Spark의 Cluster Manager의 배포 방식(deploy mode)에는 Client mode와 Cluster mode가 존재. Spark 사용 시 Cluster를 사용하는지 여부에 따라 결정되며 Cluster Mode 와 Client Mode 가 존재합니다. 둘의 가장 큰 차이점은 Spark Driver 실행 위치입니다. 자세히 알아볼까요? Cluster 미사용 Cluster 를 사용하지 않는 경우 spark local mode 로 실행됩니다. Cluster 사용 ClusterManager를 선택해야합니다. ClusterManager 의 종류 및 기능은 다음 포스팅에서 설명하겠습니다. 결정을 했다면 ClusterManager의 .. 2022. 12. 16.
728x90