Resilient Distributed Dataset
아파치 스파크의 핵심 추상화로 탄력적 분산 데이터셋이다. 클러스터에서 분산 컴퓨팅의 복잡성을 추상화하는 풍부한 기능적 프로그래밍 모델을 제공한다.
맵리듀스 개요에서 논의한 맵과 리듀스 단계보다 더 표현적인 프로그래밍 모델을 제공하는 변환과 액션이라는 개념을 소개 with Lazy Evaluation
스트림 처리의 이해
실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기 2011년에 마크 안드레센Marc Andreessen은 많은 기업이 디지털 전환에 대한 도전에 직면하고 있던 시기에 급속히 발전하는 디지털 경제를 언급하며 '소프트웨어가 세상을 집어삼키고 있다'는 유명한 말을 남겼다. '온라인'과 '모바일' 동작 모드를 사용하는 성공적인 온라인 비즈니스는 전통적인 '오프라인 거래' 방식으로 존재하던 경쟁자들을 점령하기 시작했다.
https://www.hanbit.co.kr/channel/category/category_view.html?cms_code=CMS2334616566
[Spark] Spark RDD(Resillient Distributed Data)란?
안녕하세요. RDD란? 이라는 글로 돌아온, 개발자 김모씨입니다. 오늘은 스파크의 데이터 구조인 RDD에 대해 알아볼 건데요. 스파크는 기본적으로 RDD들의 흐름에 의해 동작한다고 보시면 됩니다. 스파크가 무엇인지, 스파크의 구조는 어떤지 저번 글을 읽지 않으셔서 아직 모르시는 분들(!)은 얼렁 가서 훑고 오시죠! [Spark] Apache Spark(아파치 스파크)란? 빅데이터 빅데이터 빅데이터.... 뉴스에서고, 채용공고에서고 연일 화두에 오르는 키워드이다. 특히 이 글을 보는 당신이 컴공이라면, 마치 족쇄마냥 우리의 진로를 고민하게 만드는 단어일 것�� artist-developer.tistory.com 스파크의 데이터 구조는 크게 - RDD (Resillient Distributed Data) -..
https://artist-developer.tistory.com/17

Seonglae Cho