當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

Python中实现模糊匹配的魔法库：FuzzyWuzzy

發(fā)布時(shí)間：2024/7/5 python 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python中实现模糊匹配的魔法库：FuzzyWuzzy 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

參考鏈接：https://mp.weixin.qq.com/s/5qzPb7HOCfRRGJICYUsAOQ
FuzzyWuzzy一個(gè)簡(jiǎn)單易用的模糊字符串匹配工具包。讓你輕松解決煩惱的匹配問(wèn)題！

前言

在處理數(shù)據(jù)的過(guò)程中，難免會(huì)遇到下面類似的場(chǎng)景，自己手里頭獲得的是簡(jiǎn)化版的數(shù)據(jù)字段，但是要比對(duì)的或者要合并的卻是完整版的數(shù)據(jù)（有時(shí)候也會(huì)反過(guò)來(lái)）

最常見(jiàn)的一個(gè)例子就是：在進(jìn)行地理可視化中，自己收集的數(shù)據(jù)只保留的縮寫，比如北京，廣西，新疆，西藏等，但是待匹配的字段數(shù)據(jù)卻是北京市，廣西壯族自治區(qū)，新疆維吾爾自治區(qū)，西藏自治區(qū)等，如下。因此就需要有沒(méi)有一種方式可以很快速便捷的直接進(jìn)行對(duì)應(yīng)字段的匹配并將結(jié)果單獨(dú)生成一列，就可以用到FuzzyWuzzy庫(kù)。

圖片

FuzzyWuzzy庫(kù)介紹

FuzzyWuzzy 是一個(gè)簡(jiǎn)單易用的模糊字符串匹配工具包。它依據(jù) Levenshtein Distance 算法，計(jì)算兩個(gè)序列之間的差異。

Levenshtein Distance算法，又叫 Edit Distance算法，是指兩個(gè)字符串之間，由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符，插入一個(gè)字符，刪除一個(gè)字符。一般來(lái)說(shuō)，編輯距離越小，兩個(gè)串的相似度越大。

這里使用的是Anaconda下的jupyter notebook編程環(huán)境，因此在Anaconda的命令行中輸入一下指令進(jìn)行第三方庫(kù)安裝。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple FuzzyWuzzy

2.1 fuzz模塊

該模塊下主要介紹四個(gè)函數(shù)（方法），分別為：簡(jiǎn)單匹配（Ratio）、非完全匹配（Partial Ratio）、忽略順序匹配（Token Sort Ratio）和去重子集匹配（Token Set Ratio）

注意：如果直接導(dǎo)入這個(gè)模塊的話，系統(tǒng)會(huì)提示warning，當(dāng)然這不代表報(bào)錯(cuò)，程序依舊可以運(yùn)行（使用的默認(rèn)算法，執(zhí)行速度較慢），可以按照系統(tǒng)的提示安裝python-Levenshtein庫(kù)進(jìn)行輔助，這有利于提高計(jì)算的速度。

圖片

2.1.1 簡(jiǎn)單匹配（Ratio）

簡(jiǎn)單的了解一下就行，這個(gè)不怎么精確，也不常用

fuzz.ratio(“河南省”, “河南省”)

100

fuzz.ratio(“河南”, “河南省”)

2.1.2 非完全匹配（Partial Ratio）

盡量使用非完全匹配，精度較高

fuzz.partial_ratio(“河南省”, “河南省”)

100

fuzz.partial_ratio(“河南”, “河南省”)

100

2.1.3 忽略順序匹配（Token Sort Ratio）

原理在于：以空格為分隔符，小寫化所有字母，無(wú)視空格外的其它標(biāo)點(diǎn)符號(hào)

fuzz.ratio(“西藏自治區(qū)”, “自治區(qū) 西藏”)

50
fuzz.ratio(‘I love YOU’,‘YOU LOVE I’)

fuzz.token_sort_ratio(“西藏自治區(qū)”, “自治區(qū) 西藏”)

100
fuzz.token_sort_ratio(‘I love YOU’,‘YOU LOVE I’)

100

2.1.4 去重子集匹配（Token Set Ratio）

相當(dāng)于比對(duì)之前有一個(gè)集合去重的過(guò)程，注意最后兩個(gè)，可理解為該方法是在token_sort_ratio方法的基礎(chǔ)上添加了集合去重的功能，下面三個(gè)匹配的都是倒序

fuzz.ratio(“西藏西藏自治區(qū)”, “自治區(qū) 西藏”)

fuzz.token_sort_ratio(“西藏西藏自治區(qū)”, “自治區(qū) 西藏”)

fuzz.token_set_ratio(“西藏西藏自治區(qū)”, “自治區(qū) 西藏”)

100

fuzz這幾個(gè)ratio()函數(shù)（方法）最后得到的結(jié)果都是數(shù)字，如果需要獲得匹配度最高的字符串結(jié)果，還需要依舊自己的數(shù)據(jù)類型選擇不同的函數(shù)，然后再進(jìn)行結(jié)果提取，如果但看文本數(shù)據(jù)的匹配程度使用這種方式是可以量化的，但是對(duì)于我們要提取匹配的結(jié)果來(lái)說(shuō)就不是很方便了，因此就有了process模塊。

2.2 process模塊

用于處理備選答案有限的情況，返回模糊匹配的字符串和相似度。

2.2.1 extract提取多條數(shù)據(jù)

類似于爬蟲中select，返回的是列表，其中會(huì)包含很多匹配的數(shù)據(jù)

choices = [“河南省”, “鄭州市”, “湖北省”, “武漢市”]
process.extract(“鄭州”, choices, limit=2)

[(‘鄭州市’, 90), (‘河南省’, 0)]

extract之后的數(shù)據(jù)類型是列表，即使limit=1，最后還是列表，注意和下面extractOne的區(qū)別

2.2.2 extractOne提取一條數(shù)據(jù)

如果要提取匹配度最大的結(jié)果，可以使用extractOne，注意這里返回的是元組類型，還有就是匹配度最大的結(jié)果不一定是我們想要的數(shù)據(jù)，可以通過(guò)下面的示例和兩個(gè)實(shí)戰(zhàn)應(yīng)用體會(huì)一下

process.extractOne(“鄭州”, choices)

(‘鄭州市’, 90)

process.extractOne(“北京”, choices)

(‘湖北省’, 45)

實(shí)戰(zhàn)應(yīng)用

這里舉兩個(gè)實(shí)戰(zhàn)應(yīng)用的小例子，第一個(gè)是公司名稱字段的模糊匹配，第二個(gè)是省市字段的模糊匹配

3.1 公司名稱字段模糊匹配

數(shù)據(jù)及待匹配的數(shù)據(jù)樣式如下：自己獲取到的數(shù)據(jù)字段的名稱很簡(jiǎn)潔，并不是公司的全稱，因此需要進(jìn)行兩個(gè)字段的合并

圖片

直接將代碼封裝為函數(shù)，主要是為了方便日后的調(diào)用，這里參數(shù)設(shè)置的比較詳細(xì)，執(zhí)行結(jié)果如下：

圖片

3.1.1 參數(shù)講解：

① 第一個(gè)參數(shù)df_1是自己獲取的欲合并的左側(cè)數(shù)據(jù)（這里是data變量）；

② 第二個(gè)參數(shù)df_2是待匹配的欲合并的右側(cè)數(shù)據(jù)（這里是company變量）；

③ 第三個(gè)參數(shù)key1是df_1中要處理的字段名稱（這里是data變量里的‘公司名稱’字段）

④ 第四個(gè)參數(shù)key2是df_2中要匹配的字段名稱（這里是company變量里的‘公司名稱’字段）

⑤ 第五個(gè)參數(shù)threshold是設(shè)定提取結(jié)果匹配度的標(biāo)準(zhǔn)。注意這里就是對(duì)extractOne方法的完善，提取到的最大匹配度的結(jié)果并不一定是我們需要的，所以需要設(shè)定一個(gè)閾值來(lái)評(píng)判，這個(gè)值就為90，只有是大于等于90，這個(gè)匹配結(jié)果我們才可以接受

⑥ 第六個(gè)參數(shù)，默認(rèn)參數(shù)就是只返回兩個(gè)匹配成功的結(jié)果

⑦ 返回值：為df_1添加‘matches’字段后的新的DataFrame數(shù)據(jù)

3.1.2 核心代碼講解

第一部分代碼如下，可以參考上面講解process.extract方法，這里就是直接使用，所以返回的結(jié)果m就是列表中嵌套元祖的數(shù)據(jù)格式，樣式為: [(‘鄭州市’, 90), (‘河南省’, 0)]，因此第一次寫入到’matches’字段中的數(shù)據(jù)也就是這種格式

注意，注意：元祖中的第一個(gè)是匹配成功的字符串，第二個(gè)就是設(shè)置的threshold參數(shù)比對(duì)的數(shù)字對(duì)象

s = df_2[key2].tolist()
m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))
df_1[‘matches’] = m

第二部分的核心代碼如下，有了上面的梳理，明確了‘matches’字段中的數(shù)據(jù)類型，然后就是進(jìn)行數(shù)據(jù)的提取了，需要處理的部分有兩點(diǎn)需要注意的：

① 提取匹配成功的字符串，并對(duì)閾值小于90的數(shù)據(jù)填充空值

② 最后把數(shù)據(jù)添加到‘matches’字段

m2 = df_1[‘matches’].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else ‘’)
#要理解第一個(gè)‘matches’字段返回的數(shù)據(jù)類型是什么樣子的，就不難理解這行代碼了
#參考一下這個(gè)格式：[(‘鄭州市’, 90), (‘河南省’, 0)]
df_1[‘matches’] = m2

return df_1

3.2 省份字段模糊匹配

自己的數(shù)據(jù)和待匹配的數(shù)據(jù)背景介紹中已經(jīng)有圖片顯示了，上面也已經(jīng)封裝了模糊匹配的函數(shù)，這里直接調(diào)用上面的函數(shù)，輸入相應(yīng)的參數(shù)即可，代碼以及執(zhí)行結(jié)果如下：

圖片

數(shù)據(jù)處理完成，經(jīng)過(guò)封裝后的函數(shù)可以直接放在自己自定義的模塊名文件下面，以后可以方便直接導(dǎo)入函數(shù)名即可，可以參考將自定義常用的一些函數(shù)封裝成可以直接調(diào)用的模塊方法。

全部函數(shù)代碼

#模糊匹配

def fuzzy_merge(df_1, df_2, key1, key2, threshold=90, limit=2):
“”"
:param df_1: the left table to join
:param df_2: the right table to join
:param key1: key column of the left table
:param key2: key column of the right table
:param threshold: how close the matches should be to return a match, based on Levenshtein distance
:param limit: the amount of matches that will get returned, these are sorted high to low
:return: dataframe with boths keys and matches
“”"
s = df_2[key2].tolist()

m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit)) df_1['matches'] = mm2 = df_1['matches'].apply(lambda x: [i[0] for i in x if i[1] >= threshold][0] if len([i[0] for i in x if i[1] >= threshold]) > 0 else '') df_1['matches'] = m2return df_1

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

df = fuzzy_merge(data, company, ‘公司名稱’, ‘公司名稱’, threshold=90)
df

總結(jié)

以上是生活随笔為你收集整理的Python中实现模糊匹配的魔法库：FuzzyWuzzy的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 动态词嵌入
下一篇： python实现批量图片/文件重命名