日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

【开源项目推荐】Great Expectations—开源的数据质量工具

發布時間:2024/1/5 windows 38 coder
生活随笔 收集整理的這篇文章主要介紹了 【开源项目推荐】Great Expectations—开源的数据质量工具 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家好,我是獨孤風。

又到了本周的開源項目推薦。數據質量是企業進行數據治理非常重要的一個環節,高質量的數據對管理決策,業務支撐都有非常重要的作用。
只有持續的數據質量改進才能推動數據治理體系的完善,差勁的數據質量就如同頑固的疾病一樣,如果不能得到及時的改善,最終可能會導致重大的問題。
近幾年來,管理數據質量的工具層出不窮,但是能夠全面的對企業數據質量進行分析與洞察的工具并不多見。
那么,有沒有好用的開源的數據質量項目呢?
今天為大家推薦的開源項目,就是一個極為優秀的數據質量檢查工具,開源的數據質量管理項目。讓我們一起來看看吧~

概述

今天為大家推薦的開源項目名為Great Expectations。
Great Expectations是一個開源的數據質量檢查工具,使用了基于機器學習的數據質量自動化管理工作流程。它可以輕松地對數據質量進行驗證、建模和監控。用戶以期望(expectations)的形式定義斷言(assertions)。顧名思義,期望是您期望從數據中獲得的質量,斷言則是用聲明性語言編寫的。
例如,下圖的斷言示例定義了passenger_count列的值必須介于1和6之間。

Great Expectations根據這個規則,就會對數據進行驗證,并且能夠自動生成便于閱讀的數據診斷報告。Great Expectations的另一個功能是自動化數據分析。它可以根據統計數據,自動從數據中生成期望。由于數據質量工程師不必從頭開始編寫斷言,因此大幅節省了開發的時間。一旦各種預期準備就緒,它們就可以被合并到數據管道中。

可在大數據流動后臺回復“GreatExpectations”獲取安裝包,源代碼與學習資料。

功能演示

請參考大數據流動視頻號的功能演示:

如何安裝?

整個Great Expectations的使用流程如下圖所示。

需要python版本為 3.8 到 3.11。

可以用下面的命令進行安裝。

pip install great_expectations

如果要在python代碼中使用,可以這樣引入。

import great_expectations as gx

隨后建立一個上下文。

context = gx.get_context()

連接數據。

validator = context.sources.pandas_default.read_csv(
    "https://raw.githubusercontent.com/great-expectations/gx_tutorials/main/data/yellow_tripdata_sample_2019-01.csv"
)

定義一個期望

validator.expect_column_values_to_not_be_null("pickup_datetime")
validator.expect_column_values_to_be_between(
    "passenger_count", min_value=1, max_value=6
)
validator.save_expectation_suite()

定義一個檢查點。

checkpoint = context.add_or_update_checkpoint(
    name="my_quickstart_checkpoint",
    validator=validator,
)

隨后執行就可以了。

checkpoint_result = checkpoint.run()

如果要查看結果可以執行下面的命令。

context.view_validation_result(checkpoint_result)

支持的數據源

目前Great Expectations支持如下的數據源。

更多大數據,數據治理,人工智能知識分享,開源項目推薦,學習社群加入,請關注大數據流動。

總結

以上是生活随笔為你收集整理的【开源项目推荐】Great Expectations—开源的数据质量工具的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。