Parquet

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Oct 19 17:22
Editor
Edited
Edited
2024 Mar 28 15:26
Refs
Refs
Hadoop

Columnar data storage not row-based unlike
RDBMS
(PAA + kay)

So
Data Compression
rate is high (similar datas)
Parquet 파일을 쓸 때 모든 칼럼은 호환성을 위해 자동으로 null을 허용하도록 변경
칼럼에 동일한 데이터 타입이 저장되기 때문에 칼럼별로 적합한(데이터형에 유리한) 인코딩을 사용
Parquet Notion
 
 
 
A 42 kB Parquet file can contain over 4 PB of data.
 
 

Recommendations