Hadoop

Creator

Creator

Seonglae Cho

Created

Created

2020 Jan 30 13:39

Editor

Editor

Seonglae Cho

Edited

Edited

2024 May 4 5:40

Refs

Refs

Java Software framework

하둡에 다 때려박은거

Data Warehouse 으로 이전하거나 추상화해서 데이터관리함

너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트

Data storage layer (
HDFS,
HBase)

Data Processing layer (
Hadoop MapReduce,
Hadoop Yarn)

Data access layer (
Apache Hive,

Data management layer

notion image

Hadoop은 데이터 저장소의 역할을 하고, Spark는 분석 엔진의 역할, Zeppelin은 인터페이스의 역할

Hadoop Notion

Hadoop MapReduce

Hadoop Usages

Apache Zeppelin

Cloudera Manager

Apache Zookeeper

Apache Mahout

Apache Sqoop

notion image

History

빅데이터 시대를 열다, 하둡을 창시한 더그 커팅

야만인] 인공지능 탄생의 뒷이야기 | 더그 커팅 Doug Cutting은 오픈소스 프로젝트의 최대 성공작 중 하나인 Hadoop을 시작한 분입니다. 2006년, 대학원생 마이크 카파렐라 Michael J. Cafarella와 오픈소스 검색엔진의 하부 프로젝트인 하둡 Hadoop을 시작할 때는 이렇게까지 대규모로 커질 줄 몰랐습니다. 소프트웨어에는 두 가지 흐름이 있는데 더그 커팅 자신은 해커

https://brunch.co.kr/@hvnpoet/98

빅데이터 시대를 열다, 하둡을 창시한 더그 커팅

Terms

하둡(Hadoop) 기초 정리

하둡에 대해 알아보기 전에 큰 흐름에서의 하둡에 대해 이해를 해보자. 하둡은 기본적으로 빅데이터를 처리하는 과정 속에서 사용되어진다. 빅데이터를 처리하는 흐름으로는 우선 데이터를 수집한 후에, 저장하고 처리한다. 그 결과를 바탕으로 분석하고 결과를 표현하게 된다. 이러한 단계 중에 빅데이터를 어떻게 저장하고, 저장된 정보를 어떻게 잘 처리하는지에 대한 부분이 하둡이 담당하는 역할이라고 할 수 있다. Hadoop (High-Availability Distributed Object-Oriented Platform) 자바 소프트웨어 프레임워크로 대량의 자료(빅데이터)의 분산 저장과 분석을 위한 분산 컴퓨팅 솔루션이다. 일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나, ..

https://han-py.tistory.com/361

하둡(Hadoop) 기초 정리

Usages

[Bigdata] Hadoop, Spark, Zeppelin 연동 시스템 구축

요즘 빅데이터를 공부할 때 Hadoop, Spark, Zeppelin을 사용하고 있다. Hadoop은 HDFS로써 데이터 저장소의 역할을 하고, Spark는 분석 엔진의 역할, Zeppelin은 인터페이스의 역할을 한다. 이들을 하나의 서버에서 연동하여 사용하는 시스템을 구축하는 방법을 정리해보고자 한다. 0. Prerequisite 0.1 Ubuntu 우분투는 16.04.5 LTS 버전을 사용하였다. 18 버전이 불안정하다는 다수의 의견이 있어 16 버전을 선택하였다. 0.2 Physical FileSystem structure ubuntu는 UEFI 모드로 설치하였고, 파일시스템은 btrfs 를 사용하였다. 사용할 서버는 SSD 256G, HDD 1TBx2의 저장공간을 가지고 있어서 SSD는 /에 마..

https://glow153.tistory.com/16

[Bigdata] Hadoop, Spark, Zeppelin 연동 시스템 구축

비전공자가 이해한 Hadoop

빅-데이터 세상에서, 데이터의 규모가 조금만 커져도 컴퓨터 한대로는 단순히 데이터를 불러오는 것조차 힘겨워지는 경우가 생긴다. 이를 해결하기 위해 Hadoop 을 이용하는 경우가 많아졌다. 데이터 엔지니어의 롤을 가진 분들이 주로 활용하는 툴.

https://moons08.github.io/programming/hadoop-overview/

비전공자가 이해한 Hadoop

Backlinks

Storage File Format AWS EMR Workflow Management System Streaming Processing Tool Data Science GCP Dataproc

Recommendations

//////