日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

最新,2023年6月CDGP设计及论述题解析

發(fā)布時間:2024/5/14 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 最新,2023年6月CDGP设计及论述题解析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


2023年6月CDGP設(shè)計及論述題解析

加gzh“大數(shù)據(jù)食鐵獸”,回復(fù)“2023cdgp獲取完整版)


  • 酒店會員建模



  • 結(jié)合國內(nèi)外數(shù)據(jù)安全法律法規(guī),談?wù)劸惩鈧鬏敂?shù)據(jù)安全管理體系建設(shè)

國內(nèi):《數(shù)據(jù)安全法》、《網(wǎng)絡(luò)安全法》、2022年9月施行《數(shù)據(jù)出境安全評估辦法》國外:歐盟數(shù)據(jù)保護條令,美國國土安全法案和美國愛國者法、聯(lián)邦信息安全管理法、加拿大198法案等涉及到個人信息:《個人信息保護法》● 從以下幾個方面進行數(shù)據(jù)安全管理建設(shè):(1)信息安全,包括:脆弱性、威脅、風(fēng)險、加密、混淆/脫敏(2)網(wǎng)絡(luò)安全,包括:后門、機器人/尸、防火墻、DMZ、鍵盤記錄器、滲透測試、虛擬專用網(wǎng)(VPN)(3)數(shù)據(jù)安全,包括: 設(shè)施安全、設(shè)備安全、憑據(jù)安全、電子通信安全● 通過數(shù)據(jù)生命周期進行管理及建設(shè):數(shù)據(jù)全生命周期包括規(guī)劃-設(shè)計/啟用-創(chuàng)建/獲取-存儲/維護-使用-增強及處置。規(guī)劃:將數(shù)據(jù)與安全和隱私需求關(guān)聯(lián)設(shè)計&啟用:”在系統(tǒng)中建立數(shù)據(jù)保護和安全措施創(chuàng)建/獲取:對新數(shù)據(jù)進行分類,以便合理保護數(shù)據(jù)存儲/維護:確保數(shù)據(jù)存儲符合政策法規(guī)的要求使用:管理訪問權(quán)限,以保證對數(shù)據(jù)的合理使用,防止濫用增強:在監(jiān)管要求和識別新的安全威脅上保持領(lǐng)先處置:遵循有關(guān)政策和法規(guī)要求處理數(shù)據(jù)


  • (1)主數(shù)據(jù)管理挑戰(zhàn)?(2)主數(shù)據(jù)管理目標(biāo)?(3)如何識別主數(shù)據(jù)?(4)主數(shù)據(jù)管理實施步驟?

(1)挑戰(zhàn):實體解析(身份管理),它是識別和管理來自不同系統(tǒng)和流程數(shù)據(jù)之間的關(guān)聯(lián)的過程。必須對這個過程進行持續(xù)的管理,讓這些主數(shù)據(jù)實體、實例和標(biāo)識保持一致。(2)目標(biāo):確保組織在各個流程中擁有完整一致最新且權(quán)威的主數(shù)據(jù)、促使企業(yè)在各業(yè)務(wù)單元和各應(yīng)用系統(tǒng)之前共享主數(shù)據(jù)。(3)主數(shù)據(jù)是關(guān)于業(yè)務(wù)實體的數(shù)據(jù),主要包括參考數(shù)據(jù)、企業(yè)結(jié)構(gòu)數(shù)據(jù)、交易結(jié)構(gòu)數(shù)據(jù)。主數(shù)據(jù)實體的識別/解析步驟如下:1)匹配、2)標(biāo)解析、3)配工作流和對帳類型、4)數(shù)據(jù)ID管理5) 從屬管理(4)步驟:識別驅(qū)動因素和需求、評價評估數(shù)據(jù)源、定義架構(gòu)方法、建模主數(shù)據(jù)、定義管理職責(zé)和維護六、建立治理制度推動主數(shù)據(jù)使用。

  • (1)如何構(gòu)建數(shù)倉?(2)現(xiàn)代數(shù)據(jù)架構(gòu)的特點?(3)數(shù)據(jù)倉庫及數(shù)據(jù)湖的異同點?(4)如何解決SCD問題?

(1)數(shù)據(jù)倉庫建設(shè)主要流程:1)理解需求2)定義和維護數(shù)據(jù)倉庫/商務(wù)智能架構(gòu)3)開發(fā)數(shù)據(jù)倉庫和數(shù)據(jù)集市4)加載數(shù)據(jù)倉庫5)實施商務(wù)智能產(chǎn)品組合6)維護數(shù)據(jù)產(chǎn)品(2)現(xiàn)代數(shù)據(jù)架構(gòu)的特點:大數(shù)據(jù)的特點:3V(數(shù)量大、類型多、變化快)+價值密度低、價值高數(shù)據(jù)架構(gòu)的特點:湖倉一體化,流批一體化。典型的代表是Lambda架構(gòu)和Kappa架構(gòu)。這里可以根據(jù)分值展開講一講。(3)數(shù)據(jù)倉庫和數(shù)據(jù)湖的異同點:● 相同點:都可以用于大數(shù)據(jù)存儲和分析,面向企業(yè)級應(yīng)用。都有著非常大的存儲容量和高效的數(shù)據(jù)存取速度。都支持批量和實時數(shù)據(jù)的處理,可以應(yīng)對不同的數(shù)據(jù)處理需求。都面向企業(yè)決策和數(shù)據(jù)分析。● 異同點:數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)倉庫采用規(guī)范化的數(shù)據(jù)結(jié)構(gòu),而數(shù)據(jù)湖則支持任意的數(shù)據(jù)格式以及非規(guī)范化的數(shù)據(jù)存儲模式。數(shù)據(jù)來源:數(shù)據(jù)倉庫主要是通過ETL的方式從不同的數(shù)據(jù)源抽取數(shù)據(jù)之后,再進行清洗、整合加工。而數(shù)據(jù)湖則是將未被處理、未經(jīng)過清洗的原始數(shù)據(jù)存儲在一個統(tǒng)一的存儲空間中,支持所有的數(shù)據(jù)格式直接讀取以及查詢。數(shù)據(jù)使用:數(shù)據(jù)倉庫主要用于企業(yè)決策和報表分析,是一種比較傳統(tǒng)的數(shù)據(jù)分析方式。而數(shù)據(jù)湖具有更加廣泛的應(yīng)用范圍,可以支持包括大數(shù)據(jù)、機器學(xué)習(xí)、人工智能等多種領(lǐng)域。數(shù)據(jù)時效性:數(shù)據(jù)倉庫數(shù)據(jù)主要是歷史性數(shù)據(jù)記錄, 它被歸檔和批量處理,所以實際數(shù)據(jù)在數(shù)小時或數(shù)天以后才能獲得。而數(shù)據(jù)湖支持更加實時的數(shù)據(jù)處理和查詢,可以實時地獲取數(shù)據(jù)并進行處理。(4)SCD問題:一些維度表的數(shù)據(jù)不是靜態(tài)的,而是會隨著時間而緩慢地變化,這種隨著時間發(fā)生變化的維度稱之為緩慢變化維,把處理維度表數(shù)據(jù)歷史變化的問題,稱為緩慢變化維問題,簡稱SCD問題。解決方法:保留原始值、改寫屬性值、增加維度新行、增加維度新列、增加歷史表、使用拉鏈表保存歷史快照(推薦)。


  • (1)如何確定數(shù)據(jù)質(zhì)量管理的優(yōu)先級順序?(2)結(jié)合本公司實際情況按照(1)順序構(gòu)建數(shù)據(jù)質(zhì)量管理體系

(1)數(shù)據(jù)質(zhì)量管理應(yīng)該從組織中最重要的數(shù)據(jù)入手。即質(zhì)量更高,為組織及客戶提供更多價值。可以根據(jù)監(jiān)管要求、財務(wù)價值和對客戶的直接影響等因素對數(shù)據(jù)進行優(yōu)先級排序。(2)結(jié)合實際情況本公司數(shù)據(jù)內(nèi)容及優(yōu)先級排序(略)。構(gòu)建數(shù)據(jù)質(zhì)量管理體系的方法:根據(jù)數(shù)據(jù)的生命周期進行數(shù)據(jù)質(zhì)量管理。規(guī)劃: 定義高質(zhì)量數(shù)據(jù)的特征設(shè)計&啟用:定義系統(tǒng)和流程控制來規(guī)避數(shù)據(jù)問題產(chǎn)生,保持數(shù)據(jù)質(zhì)量創(chuàng)建/獲取:測量或檢查數(shù)據(jù),確保數(shù)據(jù)滿足質(zhì)量要求存儲/維護:借助系統(tǒng)和流程檢測數(shù)據(jù),確保數(shù)據(jù)能夠持續(xù)的滿足期望使用:使用反饋循環(huán)機制來持續(xù)提升數(shù)據(jù)的質(zhì)量增強:就數(shù)據(jù)質(zhì)量提升機會采取行動處置:基于數(shù)據(jù)質(zhì)量要求正確地識別和提升數(shù)據(jù)

  • 結(jié)合本公司實踐如何構(gòu)建元數(shù)據(jù)管理體系,確保元數(shù)據(jù)質(zhì)量

元數(shù)據(jù)是數(shù)據(jù)。與其他數(shù)據(jù)一樣,它也有一個生命周期我們必須對它的生命周期進行管理。規(guī)劃:定義元數(shù)據(jù)的需求設(shè)計&啟用:將創(chuàng)建和管理元數(shù)據(jù)作為正在進行的數(shù)據(jù)管理活動的一部分創(chuàng)建/獲取: 確保創(chuàng)建元數(shù)據(jù)并滿足質(zhì)量要求存儲/維護:確保元數(shù)據(jù)保持當(dāng)前狀態(tài)并繼續(xù)滿足需求使用:使用元數(shù)據(jù),從數(shù)據(jù)中獲取價值。啟用反饋循環(huán)可以提高元數(shù)據(jù)質(zhì)量增強:使用新知識增強現(xiàn)有的元數(shù)據(jù),實現(xiàn)新的元數(shù)據(jù)需求處置:清除或歸檔過時的元數(shù)據(jù)● 步驟:按照質(zhì)量管理步驟對元數(shù)據(jù)質(zhì)量進行管理(1)定義高質(zhì)量元數(shù)據(jù)、(2)定義元數(shù)據(jù)質(zhì)量戰(zhàn)略、(3)定義初始評估范圍、(4)執(zhí)行初始元數(shù)據(jù)質(zhì)量評估.(5)識別改進并排列優(yōu)先級、(6)定義元數(shù)據(jù)質(zhì)量改進目標(biāo)、(7)開發(fā)和部署元數(shù)據(jù)質(zhì)量操作等方面。● 元數(shù)據(jù)活動:定義元數(shù)據(jù)戰(zhàn)略、理解元數(shù)據(jù)需求、定義元數(shù)據(jù)架構(gòu)、黃建和維護元數(shù)據(jù)、查詢報告和分析元數(shù)據(jù)


  • 超綱內(nèi)容有哪些?

1、Data Mesh及Data Fabric

二者都是為了解決跨技術(shù)棧和平臺的數(shù)據(jù)接入和分析問題,讓數(shù)據(jù)還保留在原來的地方,而不是集中到一個平臺或者領(lǐng)域。Data fabric是以技術(shù)為中心,data mesh聚焦于方法論、組織協(xié)同上的變化。

更詳細內(nèi)容參考:

10分鐘搞懂 Data Fabric 和 Data Mesh 的區(qū)別!- 知乎 (zhihu.com)

2、開源大數(shù)據(jù)組件(本次多選題中出現(xiàn)了Atlas)

常見的技術(shù)組件如下:

● 系統(tǒng)平臺 (Hadoop、CDH、HDP)

● 云平臺 (AWS、GCP、Microsoft Azure)

● 監(jiān)控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle、Prometheus)

● 文件系統(tǒng) (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio、JindoFS)

● 資源調(diào)度 (K8S、YARN、Mesos、Standlone)

● 協(xié)調(diào)框架 (ZooKeeper 、Etcd、Consul)

● 數(shù)據(jù)存儲 (HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo、Redis 、Ignite、Geode、CouchDB、Kudu)

● 行列存儲 (Parquet、ORC、Arrow、CarbonData、Avro)

● 數(shù)據(jù)湖 (IceBerg、Hudi、DeltaLake)

● 數(shù)據(jù)處理 (MaxCompute、Hive、MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron)

● OLAP (Hologres、StarRocks、GreenPlum、Trino/Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix)

● 數(shù)據(jù)采集 (Flume、Filebeat、Logstash、Chukwa)

● 數(shù)據(jù)交換 (Sqoop 、Kettle、DataX 、NiFi)

● 消息系統(tǒng) (Pulsar、Kafka、RocketMQ、ActiveMQ、RabbitMQ)

● 任務(wù)調(diào)度 (Azkaban、Oozie、Airflow、Contab、DolphinScheduler)

● 數(shù)據(jù)安全 (Ranger、Sentry、Atlas)

● 數(shù)據(jù)血緣 (OpenLineage、Egeria、Marquez、DataHub)

● 機器學(xué)習(xí) (Pai、Mahout、MADlib、Spark ML、TensorFlow、Keras、MxNet)


  • 其他出現(xiàn)在選擇題目中容易忽略的知識點

1、數(shù)據(jù)管理的第一階段及第二階段包括哪些:第一階段:數(shù)據(jù)集成和互操作、數(shù)據(jù)存儲和操作、數(shù)據(jù)安全、數(shù)據(jù)建模和設(shè)計第二階段:數(shù)據(jù)架構(gòu)、數(shù)據(jù)治理、元數(shù)據(jù)第三階段:數(shù)據(jù)治理、數(shù)據(jù)倉庫和商務(wù)智能、參考數(shù)據(jù)和主數(shù)據(jù)、文件和內(nèi)容管理第四階段:大數(shù)據(jù)分析、數(shù)據(jù)挖掘2、數(shù)據(jù)架構(gòu)的步驟:定義范圍、理解需求、設(shè)計、實施3、哪些是非結(jié)構(gòu)化數(shù)據(jù):文字處理文件、電子郵件、社交媒體、聊天室、平面文件、電子表格、xml文件、事務(wù)性信息、報告、圖形、數(shù)字圖像、微縮膠片、視頻和音頻。紙質(zhì)文件中也存在大量非結(jié)構(gòu)化數(shù)據(jù)。

總結(jié)

以上是生活随笔為你收集整理的最新,2023年6月CDGP设计及论述题解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。