Columnar data storage not row-based unlike RDBMS (PAA + kay)
So Data Compression rate is high (due to similar data types in columns)
When writing Parquet files, all columns automatically allow null values for compatibility
Since columns store the same data type, each column can use encoding methods optimized for its specific data type
Parquet Notion
Parquet Tools
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?
파케이(parquet)이란 하둡에서 칼럼방식으로 저장하는 저장 포맷을 말합니다. 파케이는 프로그래밍 언어, 데이터 모델 혹은 데이터 처리 엔진과 독립적으로 엔진과 하둡 생태계에 속한 프로젝트에서 칼럼 방식으로 데이터를 효율적으로 저장하여 처리 성능을 비약적으로 향상시킬 수 있습니다. 열(Column)기반 압축을 하고있는데 이는 칼럼의 데이터가 연속된 구조로 저장되어 있다. Row 중심으로 저장되어있는 것과는 아래 사진을 보면 이해가 빠를 것 같습니다. 열을 기반으로 데이터를 처리하면 행 기반으로 압축했을때에 비해 데이터의 압축률이 더 높고, 필요한 열의 데이터만 읽어서 처리하는 것이 가능하기 때문에 데이터 처리에 들어가는 지원을 절약할 수 있습니다. 파케이는 하둡 에코시스템 안에서 언제든지 사용 가능한 ..
https://butter-shower.tistory.com/245
A 42 kB Parquet file can contain over 4 PB of data.
42.parquet – A Zip Bomb for the Big Data Age
A 42 kB Parquet file can contain over 4 PB of data.
https://duckdb.org/2024/03/26/42-parquet-a-zip-bomb-for-the-big-data-age.html


Seonglae Cho