日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

country-converter官方文档----机翻人工确认

發布時間:2023/12/2 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 country-converter官方文档----机翻人工确认 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

項目描述

國家轉換器 (coco) 是一個 Python 包,可在不同的分類和不同的命名版本之間轉換和匹配國家名稱。在內部,它使用常規的表達方式來匹配國家名稱。可可還可用于在不同的分類方案之間構建聚合和諧矩陣。

內容表

  • 動機
  • 安裝
  • 用法
    • 基本使用
      • 在 Python 內使用
      • 在命令行中使用
      • 在Matlab中使用
    • 為國家聚合構建和諧
  • 分類方案
  • 數據源和進一步閱讀
  • 溝通、問題、錯誤和增強功能
  • 貢獻
  • 相關軟件
  • 引用國家轉換器
  • 確認

作用

迄今為止,在(元)數據描述中,沒有關于如何命名或指定個別國家單一標準。雖然某些數據源遵循 ISO 3166,但此標準除數字分類外,還定義了 2 個字母和 3 個字母的代碼。使問題更加復雜的是,許多數據庫沒有使用現有標準之一,而是使用不合標準的國家名稱對國家進行分類。

國家轉換器(可可)自動轉換從不同的標準和版本的國家名稱。在內部,Coco 基于一張表格,其中指定了每個國家/地區不同的 ISO 和 UN 標準,以及官方名稱和常規表達方式,旨在匹配特定國家名稱的所有英文版本。此外,可可還包括基于聯合國、歐盟、經合組織成員國、聯合國區域規格、大陸以及各種MRIO和IAM數據庫的分類(見下文的分類方案)。

安裝

Country_converter在 Pypi 注冊。從命令行:

pip install country_converter --upgrade

國家轉換器也可以從conda,可以安裝使用conda(如果你沒有conda_forge通道添加到您的康達配置添加"-cconda",請參閱此處的安裝說明):

conda install country_converter

或者,源代碼可在GitHub上找到。

包裹取決于pandas庫:測試測試是必需的。有關運行測試的更多信息,請參閱貢獻.rst。

用法

基本使用

在 Python 內使用

將各種國名轉換為某些標準名稱:

import country_converter as coco some_names = ['United Rep. of Tanzania', 'DE', 'Cape Verde', '788', 'Burma', 'COG','Iran (Islamic Republic of)', 'Korea, Republic of',"Dem. People's Rep. of Korea"] standard_names = coco.convert(names=some_names, to='name_short') print(standard_names)

這導致[坦桑尼亞’,德國’,‘佛得角’,‘突尼斯’,‘緬甸’,‘剛果共和國’,‘伊朗’,‘韓國’,‘朝鮮’。輸入格式根據 ISO 二個字母、ISO 三個字母、ISO 數字或常規表達匹配自動確定。如果有任何模糊性,可以用參數"src"指定源格式。

在多次轉換的情況下,可以通過為所有轉換對單個國家轉換對象進行實例化來實現更好的性能:

import country_converter as coco cc = coco.CountryConverter()some_names = ['United Rep. of Tanzania', 'Cape Verde', 'Burma','Iran (Islamic Republic of)', 'Korea, Republic of',"Dem. People's Rep. of Korea"]standard_names = cc.convert(names = some_names, to = 'name_short') UNmembership = cc.convert(names = some_names, to = 'UNmember') print(standard_names) print(UNmembership)

分類方案之間的轉換:

iso3_codes = ['USA', 'VUT', 'TKL', 'AUT', 'XXX' ] iso2_codes = coco.convert(names=iso3_codes, to='ISO2') print(iso2_codes)

這導致 [美國’, ‘Vu’, ‘Tk’, ‘AT’, ‘找不到’

未找到的指示可以指定(例如,not_found = “不存在”),如果"not_found"未通過,則原始條目將通過:

iso2_codes = coco.convert(names=iso3_codes, to='ISO2', not_found=None) print(iso2_codes)

結果在 [‘美國’, ‘VU’, ‘Tk’, ‘AT’, ‘XX’

內部數據存儲在pandas數據幀中,可直接訪問。例如,這可用于篩選成員國組織的國家(每年)。注意:為此,需要一個"國家轉換器"實例。

import country_converter as coco cc = coco.CountryConverter()some_countries = ['Australia', 'Belgium', 'Brazil', 'Bulgaria', 'Cyprus', 'Czech Republic','Denmark', 'Estonia', 'Finland', 'France', 'Germany', 'Greece', 'Hungary','India', 'Indonesia', 'Ireland', 'Italy', 'Japan', 'Latvia', 'Lithuania','Luxembourg', 'Malta', 'Romania', 'Russia', 'Turkey', 'United Kingdom','United States']oecd_since_1995 = cc.data[(cc.data.OECD >= 1995) & cc.data.name_short.isin(some_countries)].name_short eu_until_1980 = cc.data[(cc.data.EU <= 1980) & cc.data.name_short.isin(some_countries)].name_short print(oecd_since_1995) print(eu_until_1980)

所有分類均可通過:

cc.EU28 cc.OECDcc.EU27as('ISO3')

以及可用的分類方案:

cc.valid_class

還有一個甲型腺,只得到國家分類(因此省略了任何國家集團):

cc.valid_country_classifications

如果您更需要一本描述分類/會員使用的字典:

import country_converter as coco cc = coco.CountryConverter() cc.get_correspondence_dict('EXIO3', 'ISO3')

還包括未在特定分類使用中分配的國家:

cc.get_correspondence_dict('EU27', 'ISO2', replace_nan='NonEU')

常規表達式還可用于將任何國家列表與任何其他國家列表匹配。例如:

match_these = ['norway', 'united_states', 'china', 'taiwan'] master_list = ['USA', 'The Swedish Kingdom', 'Norway is a Kingdom too','Peoples Republic of China', 'Republic of China' ]matching_dict = coco.match(match_these, master_list)

默認情況下,如果找不到匹配項,則國家轉換器會向巨蛇記錄記錄器發出警告。以下示例演示了如何配置可可伐木行為。

import logging import country_converter as coco logging.basicConfig(level=logging.INFO) coco.convert("asdf") # WARNING:country_converter.country_converter:asdf not found in regex # Out: 'not found'coco_logger = coco.logging.getLogger() coco_logger.setLevel(logging.CRITICAL) coco.convert("asdf") # Out: 'not found'

有關更多信息,請參閱 IPython 筆記本(country_converter_examples.ipynb)。

命令線使用

國家轉換器包還提供了一個稱為 coco 的指揮線接口。

最小示例:

coco Cyprus DE Denmark Estonia 4 'United Kingdom' AUT

根據將輸入與 ISO2、ISO3、ISonumeric 或常規表達匹配匹配的輸入,將給定名稱轉換為 ISO3 代碼。名稱列表必須按空格劃分,由多個單詞組成的國名必須放在引號中(’)。

輸入分類可以用"src"或"-s"(或將自動確定)、目標分類(“到"或”-t")來指定。

默認輸出是一個空間分離列表,可以通過"+output_sep"或"-o"(例如 -o"|")通過分離器來更改。

因此,要從 ISO3 轉換為 UN 編號代碼,并接收輸出作為逗號分離列表使用:

coco AUT DEU VAT AUS -s ISO3 -t UNcode -o ', '

命令線工具還允許指定未找到條目的輸出,包括通過"無"將其傳遞到輸出:

coco CAN Peru US Mexico Venezuela UK Arendelle --not_found=None

并指定一個額外的數據文件,這將覆蓋現有的國家匹配

coco Congo --additional_data path/to/datafile.csv

請參閱 https://github.com/konstantinstadler/country_converter/tree/master/tests/custom_data_example.txt,了解其他數據文件示例。

旗幟UNmember_only(-u)和include_obsolete(-i)僅將搜索限制在聯合國會員國,或將其擴展到還包括目前過時的國家。例如,荷屬安的列斯群島于2010年解散。

因此:

coco "Netherlands Antilles"

導致"未找到"。但是,搜索范圍可擴展到最近解散的國家::

coco "Netherlands Antilles" -i

這導致了 “螞蟻” 。

除這些國家外,可可指揮線工具還接受各種國家分類(EXIO1、EXIO2、EXIO3、WIOD、Eora、MESSAGE、OECD、EU27、EU28、UN、過時、塞西莉亞2050、金磚四國、APEC、基礎、獨聯體、G7、G20)。其中之一可以通過

coco G20

列出該分類中的所有國家/

對于幾乎涵蓋所有國家的分類(MRIO 和 IAM 分類)

coco EXIO3

列出唯一的分類名稱。在傳遞參數時,打印所選分類的簡化函件:

coco EXIO3 --to ISO3

欲了解更多信息,請致電

coco -h

在Matlab中使用

較新的(在 2016 年測試)版本的 Matlab 允許直接調用 Python 功能和庫。這需要安裝在系統路徑(例如通過 Anaconda)中的 Python 版本>= 3.4)。

要進行測試,請在 Matlab 中試用此:

py.print(py.sys.version)

如果這有效,您也可以在通過點(在窗口命令線)安裝后使用 coco - 請參閱上面的安裝說明):

pip install country_converter --upgrade

在 matlab 中:

coco = py.country_converter.CountryConverter() countries = {'The Swedish Kingdom', 'Norway is a Kingdom too', 'Peoples Republic of China', 'Republic of China'}; ISO2_pythontype = coco.convert(countries, pyargs('to', 'ISO2')); ISO2_cellarray = cellfun(@char,cell(ISO2_pythontype),'UniformOutput',false);

或者,作為一個長單線:

short_names = cellfun(@char, cell(py.country_converter.convert({56, 276}, pyargs('src', 'UNcode', 'to', 'name_short'))), 'UniformOutput',false);

如上所述,可可的所有屬性也可在Matlab提供:

coco = py.country_converter.CountryConverter(); coco.EU27 EU27ISO3 = coco.EU27as('ISO3');

這些功能返回pandas數據幀。基礎值可以訪問與 。值 (例如.

EU27ISO3.values

我留給專業的 Matlab 用戶來找出如何進一步處理它們。

另請參閱 IPython 筆記本(country_converter_examples.ipynb)以獲取更多信息 - Python 中提供的所有功能(例如,通過附加數據文件,指定在數據丟失的情況下的輸出)也在 Matlab 中工作,通過 pyargs 功能傳遞參數。

為國家聚合構建和諧

Coco 提供在不同分類之間構建和諧載體、矩陣和字典的功能。這可以用于巨蛇以及墊板。有關更多信息,請參閱(country_converter_aggregation_helper.ipynb)

分類方案

目前有以下分類方案(另請參閱下面的數據源以獲取更多信息):

  • ISO2 (ISO 3166-1 阿爾法-2)
  • ISO3 (ISO 3166-1 阿爾法-3)
  • ISO - 數字(ISO 3166-1 數字)
  • 聯合國數字代碼(M.49 - 跟隨大擴展ISO數字)
  • 標準名稱或短名稱
  • "官方"名稱
  • 大陸
  • 聯合國地區
  • EXIOBASE 1 分類
  • EXIOBASE 2 分類
  • EXIOBASE 3 分類
  • WIOD分類
  • 歐拉
  • 經合組織成員(每年)
  • 消息11 區域分類
  • 圖像
  • 提醒
  • 聯合國會員國(每年)
  • 歐盟成員(包括歐盟12國、歐盟15國、歐盟25國、歐盟27國、EU27_2007國、歐盟28國)
  • 歐洲經濟區成員
  • 申根區
  • [塞西莉亞](https://cecilia2050.eu/system/files/De Koning et al. (2014)_Scenarios for 2050_0.pdf)2050 分類
  • 亞太經合組織
  • 金磚四國
  • 基本
  • 獨聯體(截至2019年,土庫曼斯坦除外)
  • G7
  • G20(將所有歐盟成員國列為個別成員國)
  • 糧農組織代碼(數字)
  • GBD 代碼(數字 - 全球疾病負擔國家代碼)
  • Coco 包含官方認可的代碼以及爭議或解散國家的非標準代碼。將設置限制為只有官方承認的聯合國會員國或包括過時的國家,請通過

    import country_converter as coco cc = coco.CountryConverter() cc_UN = coco.CountryConverter(only_UNmember=True) cc_all = coco.CountryConverter(include_obsolete=True)cc.convert(['PSE', 'XKX', 'EAZ', 'FRA'], to='name_short') cc_UN.convert(['PSE', 'XKX', 'EAZ', 'FRA'], to='name_short') cc_all.convert(['PSE', 'XKX', 'EAZ', 'FRA'], to='name_short')

    cc 導致 [巴勒斯坦’, ‘科索沃’, ‘找不到’, ‘法國’, 而cc_UN轉換為 [未找到’, ‘未找到’, ‘未找到’, '法國]和cc_all轉換為 [‘巴勒斯坦’, ‘科索沃’, ‘桑給巴爾’, ‘法國’] 請注意, 基礎數據幀可在屬性.數據 (例如cc_all. 數據) 。

    數據源和進一步閱讀

    大多數基礎數據都可以在維基百科中找到,描述ISO 3166-1的頁面是一個很好的起點。聯合國區域/代碼在聯合國統計司(未統計)網頁上提供。在維基百科上也解釋了ISO數字代碼和UN(M.49)代碼之間的差異。從各自的數據庫中提取了EXIOBASE、WIOD和Eora分類。 對于Eora,這些名稱基于網頁上提供的"國家名稱"csv 文件,但更新了 Eora26 數據庫中使用的不同名稱。消息分類遵循消息模型區域描述中給出的 11 個區域聚合。IMAGE分類基于"區域分類地圖",以便提醒我們從模型開發人員處收到國家地圖。

    經合組織和聯合國的成員可以在成員組織的網頁上找到,關于過時的國家代碼的信息在Statoids網頁上。

    由于英國脫歐進程,歐盟的形勢變得復雜起來。在命名上,可可遵循歐盟統計局的詞匯表,因此歐盟27指沒有英國的歐盟,而EU27_2007指的是沒有克羅地亞的歐盟(2007年擴大后的地位)。歐盟的捷徑總是與最近的分類聯系起來。歐洲經濟區協議仍然適用于英國(2020年9月,英國脫歐過渡期-如這里所述),因此英國目前被納入歐洲經濟區。

    全球疾病負擔國家代碼是從此處可用的 GBD 代碼簿中提取的。

    溝通、問題、錯誤和增強功能

    請使用問題跟蹤器記錄錯誤,建議增強功能以及與 coco 相關的所有其他通信。

    你可以在推特上關注我, 了解我所有的開源和研究項目的最新消息 (偶爾還有一些隨機轉推) 。

    相關軟件

    一攬子計劃為國家提供歷史國家、國家細分、語言和貨幣的ISO官方數據庫。如果您需要轉換非英語國名,則國名包括一個以不同語言和功能轉換為不同 ISO 3166 標準的國名的廣泛數據庫。Python-iso3166專注于 ISO 3166 標準中定義的兩個字母、三個字母和三位數代碼之間的轉換。

    如果您正在使用 R,則應該查看國家代碼。

    總結

    以上是生活随笔為你收集整理的country-converter官方文档----机翻人工确认的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。