- Header
- n muilti blocks
- Footer
- all metadata


Metadata

Terms
[Apache Parquet] 공식 문서로 파케이 이해하기
개발 동기 우리는 어떤 하둡 에코시스템에도 사용할 수 있고 압축과 컬럼 기반 데이터 표현의 이점을 만들기 위해 Parquet를 개발했습니다. Parquet는 처음부터 중첩된(nested) 데이터 구조를 위해 개발되었으며, Dremel의 논문에 작성된 record shredding and assembly algorithm을 사용합니다. 우리는 이 접근 방식이 중첩된 name space를 단순하게 붙이는 것보다 좋다고 믿고 있습니다. https://github.com/julienledem/redelm/wiki/The-striping-and-assembly-algorithms-from-the-Dremel-paper Parquet는 효율적인 압축과 인코딩 체계를 지원하도록 개발되었습니다. 여러 프로젝트에서 데이..
https://data-engineer-tech.tistory.com/52
Structure
🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기
어떻게 알게 되었나? 보통 수집한 데이터들은 정형데이터, 비정형데이터에 따라 RDB나 NoSQL로 저장했다. 그런데 데이터레이크를 만들면서 객체스토리지인 s3에 데이터를 저장해야했다. 사실 처음엔 조금 당황했다. 엥? 어떻게 저장해야하는거지? 다른형태로 저장하는건가? 그 기술에는 parquet 데이터 형식이 있었다. Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터처리는 많은 시간과 비용이 들어가서 빠르게 읽어야하고, 압축률이 좋아야하고, 특정언어에 종속되지 않아야한다. 이러한 특징을 가진 포맷으로 Parquet(파케이), ORC파일, avro(에이브로) 가 있다. 파케이의 역사 실제로 parquet(파케이)는 나무조각을 붙여넣은 마룻바닥이라..
https://pearlluck.tistory.com/561
Parquet란 무엇이고, 왜 사용하는가 | LIM
Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 한다. 이러한 특징을 가진 파일 포맷으로는 Parquet(파케이), ORC, Avro(에이브로)가 있다. 📝 파케이가 압축률이 좋은 이유: 컬럼기반 저장포맷이기 때문 먼저, 컬럼기반이 무엇인지 알아보자. 데이터베이스를 예시로 들면, 행 기반으로 저장하는 방식(대표적으로 MySQL)과 열 기반(대표적으로 BigQuery)으로 저장하는 방식이 있다. 다음과 같은 데이터베이스가 있다고 할 때 행 기반으로 저장되는 건 다음과 같이 저장되고, 열 기반으로 저장되는 건 아래와 같이 저장된다. 열 기반으로 저장되는 것이 압축률..
https://amazelimi.tistory.com/78
🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기
어떻게 알게 되었나? 보통 수집한 데이터들은 정형데이터, 비정형데이터에 따라 RDB나 NoSQL로 저장했다. 그런데 데이터레이크를 만들면서 객체스토리지인 s3에 데이터를 저장해야했다. 사실 처음엔 조금 당황했다. 엥? 어떻게 저장해야하는거지? 다른형태로 저장하는건가? 그 기술에는 parquet 데이터 형식이 있었다. Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터처리는 많은 시간과 비용이 들어가서 빠르게 읽어야하고, 압축률이 좋아야하고, 특정언어에 종속되지 않아야한다. 이러한 특징을 가진 포맷으로 Parquet(파케이), ORC파일, avro(에이브로) 가 있다. 파케이의 역사 실제로 parquet(파케이)는 나무조각을 붙여넣은 마룻바닥이라..
https://pearlluck.tistory.com/561

Seonglae Cho