日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

什么是parquet文件?

發布時間:2024/2/28 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 什么是parquet文件? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Apache Parquet是Hadoop生態系統中任何項目均可使用的列式存儲格式,而與選擇數據處理框架,數據模型或編程語言無關。

parquet的起源:

我們創建Parquet是為了使Hadoop生態系統中的任何項目都可以使用壓縮的,高效的列式數據表示形式。

Parquet是從頭開始構建的,考慮了復雜的嵌套數據結構,并使用了Dremel論文中描述的記錄粉碎和組裝算法。我們相信這種方法優于嵌套名稱空間的簡單扁平化。

?

文件格式

閱讀此文件以了解格式。

4-byte magic number "PAR1" <Column 1 Chunk 1 + Column Metadata> <Column 2 Chunk 1 + Column Metadata> ... <Column N Chunk 1 + Column Metadata> <Column 1 Chunk 2 + Column Metadata> <Column 2 Chunk 2 + Column Metadata> ... <Column N Chunk 2 + Column Metadata> ... <Column 1 Chunk M + Column Metadata> <Column 2 Chunk M + Column Metadata> ... <Column N Chunk M + Column Metadata> File Metadata 4-byte length in bytes of file metadata 4-byte magic number "PAR1"

在上面的示例中,此表中有N列,分為M行組。文件元數據包含所有列元數據起始位置的位置。可以在舊文件中找到有關元數據中包含的內容的更多詳細信息。

在數據之后寫入元數據,以允許單遍寫入。

希望讀者首先讀取文件元數據以找到他們感興趣的所有列塊。然后應順序讀取列塊。

這里只做簡單介紹:

如果想細細了解,請這里走:

http://parquet.apache.org/documentation/latest/

總結

以上是生活随笔為你收集整理的什么是parquet文件?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。