Parquet란 무엇이고, 왜 사용하는가 | LIM
Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 한다. 이러한 특징을 가진 파일 포맷으로는 Parquet(파케이), ORC, Avro(에이브로)가 있다. 📝 파케이가 압축률이 좋은 이유: 컬럼기반 저장포맷이기 때문 먼저, 컬럼기반이 무엇인지 알아보자. 데이터베이스를 예시로 들면, 행 기반으로 저장하는 방식(대표적으로 MySQL)과 열 기반(대표적으로 BigQuery)으로 저장하는 방식이 있다. 다음과 같은 데이터베이스가 있다고 할 때 행 기반으로 저장되는 건 다음과 같이 저장되고, 열 기반으로 저장되는 건 아래와 같이 저장된다. 열 기반으로 저장되는 것이 압축률..
https://amazelimi.tistory.com/78