什么是parquet文件?
生活随笔
收集整理的這篇文章主要介紹了
什么是parquet文件?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Apache Parquet是Hadoop生態系統中任何項目均可使用的列式存儲格式,而與選擇數據處理框架,數據模型或編程語言無關。
parquet的起源:
我們創建Parquet是為了使Hadoop生態系統中的任何項目都可以使用壓縮的,高效的列式數據表示形式。
Parquet是從頭開始構建的,考慮了復雜的嵌套數據結構,并使用了Dremel論文中描述的記錄粉碎和組裝算法。我們相信這種方法優于嵌套名稱空間的簡單扁平化。
?
文件格式
閱讀此文件以了解格式。
4-byte magic number "PAR1" <Column 1 Chunk 1 + Column Metadata> <Column 2 Chunk 1 + Column Metadata> ... <Column N Chunk 1 + Column Metadata> <Column 1 Chunk 2 + Column Metadata> <Column 2 Chunk 2 + Column Metadata> ... <Column N Chunk 2 + Column Metadata> ... <Column 1 Chunk M + Column Metadata> <Column 2 Chunk M + Column Metadata> ... <Column N Chunk M + Column Metadata> File Metadata 4-byte length in bytes of file metadata 4-byte magic number "PAR1"在上面的示例中,此表中有N列,分為M行組。文件元數據包含所有列元數據起始位置的位置。可以在舊文件中找到有關元數據中包含的內容的更多詳細信息。
在數據之后寫入元數據,以允許單遍寫入。
希望讀者首先讀取文件元數據以找到他們感興趣的所有列塊。然后應順序讀取列塊。
這里只做簡單介紹:
如果想細細了解,請這里走:
http://parquet.apache.org/documentation/latest/
總結
以上是生活随笔為你收集整理的什么是parquet文件?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据在未来十年将如何发展
- 下一篇: Spark _23 _读取parquet