数据迁移(数据清洗)分享
生活随笔
收集整理的這篇文章主要介紹了
数据迁移(数据清洗)分享
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
筆者2013年接了一個資源管理咨詢項目,負責該項目的實施管理,其中有幾個月是組織幾個開發廠家寫遷移腳本,做數據遷移(從原有的多個系統中把數據同步過來),僅分享當時的經驗。
前期先做基礎數據梳理和映射確認,組織所有的廠商一起梳理區域、標準地址、局站等信息,并梳理統一命名原則,確認需要采集的數據來源及存在的關系(從資源系統、網管系統、號線系統、手工臺賬等獲取)。
然后做字段確認,和哪個系統字段匹配,字段格式是否一致,新系統的數據格式是否可以更改。
然后寫遷移腳本,對幾個開發廠商簡單分工,每個廠商負責寫幾個專業的遷移腳本,過程中有疑問,再做字段確認和答疑。
遷移腳本匯總與驗證檢查,讓他們首先驗證自己的遷移腳本是否可以遷移數據,然后再做交叉驗證,對出現的問題進行討論總結。
遷移腳本的更新與備份,平時都在客戶提供的環境中進行數據驗證及備份。但有一次用戶服務器存儲損害導致所有的腳本及備份數據丟失,后面費了很大功夫才從每個開發人員手里匯總遷移腳本,并又重新做了多輪驗證。后期要求所有的開發廠商做異處備份,在多臺服務器上進行備份,如有可能,在本地也存儲一份。
做數據清洗時,數據的關聯關系也被清洗掉,需要數據遷移后,在數據庫中重新建立關聯關系。
數據遷移后的核查,培訓用戶利用自定義導出功能,把需要核查的數據導出,按照一定的順序進行核查確認,讓他們對重復數據、殘缺數據進行修改。
總結
以上是生活随笔為你收集整理的数据迁移(数据清洗)分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 资源系统建设初期数据质量管理
- 下一篇: 项目中遇到的几件有趣事