728x90 pyspark1 [Spark] Spark 란? Spark 의 등장 배경 HDFS에서 진행되는 하둡의 속도적 한계를 극복하기 위하여 등장하였습니다. 하둡과는 달리 Ram을 Rom처럼 Read Only로 사용하여 반복 처리 작업에서는 하둡보다 속도가 최소 100배 이상 빠르고 다양한 언어를 지원하여 실시간 데이터 처리라는 니즈를 충족시키며 국내의 실시간 데이터 분석에서 스파크의 비율이 상당 부분을 차지하게 되었습니다. Spark 자료 구조 Spark의 자료구조는 크게 아래와 같이 분류 가능합니다. RDD DataFrame DataSet 각각의 자료 구조의 특징을 자세하게 알아보겠습니다. RDD 1. 분산 , 불변 먼저 스파크의 가장 기본적인 데이터 단위로 RDD는 불변(Read Only) 의 특성을 가지고 있습니다. 따라서 특정 동작을 위해서는 RDD .. 2022. 12. 11. 이전 1 다음 728x90