批量下载CMIP6数据
本文介紹了如何批量下載 CMIP6 數(shù)據(jù)。
1. 注冊并登錄
- 打開CMIP6官網(wǎng):https://esgf-node.llnl.gov/search/cmip6/;
- 點擊網(wǎng)頁右上角的 Create Account 注冊賬戶;
- 進入注冊界面,填寫相關(guān)資料(只用填寫加粗的必填部分),完成注冊;
- 注冊成功后登錄帳號,會在右上角顯示用戶信息,并且可以使用 Data Chart 。
2. 選擇數(shù)據(jù)
- 第一步,在左側(cè)設(shè)置相應(yīng)的條件選擇自己需要的數(shù)據(jù);
- 第二步,在 “Total Number of Result” 處可以看到搜索結(jié)果數(shù);
- 第三步,設(shè)置頁面顯示結(jié)果數(shù)大于搜索結(jié)果數(shù)(這樣能一次性將結(jié)果添加進 Data Cart 中);
- 第四步,點擊 Add all displayed results to Data Cart ,將搜索結(jié)果添加進 Data Cart 中;
- 第五步,My Data Cart 后面的括號中顯示搜索到的結(jié)果數(shù),說明添加成功。
3. 獲取下載鏈接
- 點擊 My Data Cart ,進入數(shù)據(jù)車;
- 勾選 Select All Datasets ,并點擊 WGET Script 打開腳本下載界面,下載所有 WGET 腳本;
為了獲得更好的性能,ESGF 分別為每個數(shù)據(jù)中心生成 WGET 腳本,不同數(shù)據(jù)中心的數(shù)據(jù)下載速度不同,數(shù)據(jù)中心的數(shù)據(jù)節(jié)點狀態(tài)可查看網(wǎng)址:https://esgf-node.llnl.gov/status/(或者點擊右上角的 Data Nodes Status 查看)。
- 下載腳本時會出現(xiàn)如下狀態(tài),點擊仍然發(fā)送即可下載;
實際上可以用WGET根據(jù)腳本直接批量下載,但是還沒成功實現(xiàn),因此采用了一個略麻煩的方法。
- 用 VS Code 或者記事本打開腳本,可以看到腳本中各文件的下載鏈接信息;
- 將腳本中所有鏈接復(fù)制出來保存到一個文本文件中(例如:從數(shù)據(jù)源 esgf-node.llnl.gov 中獲取的鏈接保存為 gov.txt );
- 建議每個腳本中的鏈接單獨復(fù)制保存,不要放在一起,這樣有利于提高下載效率。
4. 清洗鏈接數(shù)據(jù)
- 從腳本中復(fù)制出的鏈接信息中(例如 gov.txt ),第一列為文件名,第二列為下載鏈接,之后的幾列為驗證信息(詳見上圖);
- 為了方便下載,需要清洗復(fù)制出來的信息(例如 gov.txt ),只提取下載鏈接并保存(例如 gov-url.txt )。
5. 批量下載
通過Internet Download Manager(IDM)軟件和迅雷批量下載數(shù)據(jù)。
(1)IDM 批量下載
- IDM 的安裝和配置詳見博客批量下載ERA5數(shù)據(jù)(Python+IDM);
- 復(fù)制清洗后的下載鏈接(例如 gov-url.txt );
- 打開 IDM 軟件,點擊左上角 任務(wù) ,點擊 從剪貼板中添加批量下載 ;
- 在批量下載界面中會顯示每個待下載文件信息;
- 選擇 所有文件保存至同一目錄(即文件下載目錄);
- 點擊 全部選擇 ,勾選所有文件;
- 點擊 確定 ,在彈出的新窗口中點擊 確定 即可將所有文件添加進隊列中開始下載。
- 修改同時下載文件個數(shù):在主界面點擊 隊列 - 主要下載隊列 ,選擇 隊列中的文件 ,修改同時下載文件個數(shù)后,點擊 應(yīng)用 完成修改。
可能出現(xiàn)的特殊情況:
點擊 從剪貼板中添加批量下載 后,文件類型和文件大小可能會出現(xiàn)“Error”或者為空的情況(如下圖),首先檢查一下數(shù)據(jù)中心的數(shù)據(jù)節(jié)點狀態(tài)( https://esgf-node.llnl.gov/status/ ),如果沒問題,嘗試將下載鏈接的 http 修改為 https ,若問題沒解決,則放到迅雷中下載。
(2)迅雷批量下載
不直接用迅雷的原因:(1)下載速度不如 IDM 快;(2)氪金才能變強(建議充值一個會員)
- 復(fù)制清洗后的下載鏈接(例如 gov-url.txt );
- 打開迅雷,點擊左上角 新建 ,迅雷會自動從剪貼板中讀取下載鏈接,點擊 確定 ;
- 設(shè)置文件保存路徑,點擊 確定 ,開始下載。
6. 查漏與分組
下載過程中還需檢查所有數(shù)據(jù)是否都完整下載,另外,下載完后還需對數(shù)據(jù)進行分組。下面提供兩段代碼分別用于查漏和數(shù)據(jù)分組。
(1)查漏
- 基于從WGET腳本中復(fù)制出來的鏈接信息進行檢查(例如 gov.txt ),依次遍歷每個文件名,判斷是否在已下載文件中出現(xiàn),如果沒出現(xiàn)則為遺漏的文件,將其下載鏈接統(tǒng)一保存在一個文本文件中。
(2)分組
- 基于文件名中的信息對數(shù)據(jù)進行分組,選擇分組依據(jù),判斷文件是否是這一類型,若是則移動到對應(yīng)的文件夾內(nèi)。
7. 最后
- 內(nèi)容僅供大家學(xué)習(xí)參考,若有不足之處,敬請大家批評指正!
總結(jié)
以上是生活随笔為你收集整理的批量下载CMIP6数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 货币的本质
- 下一篇: django+djangorestfra