SAP Cloud for Customer客户主数据的重复检查-Levenshtein算法
SAP C4C的客戶主數(shù)據(jù)創(chuàng)建時(shí)的重復(fù)檢查,基于底層HANA數(shù)據(jù)庫(kù)的模糊查找功能,根據(jù)掃描數(shù)據(jù)庫(kù)中已有的數(shù)據(jù)檢測(cè)出當(dāng)前正在創(chuàng)建的客戶主數(shù)據(jù)是否和數(shù)據(jù)庫(kù)中記錄有重復(fù)。
在系統(tǒng)里開啟重復(fù)檢查的配置:
在此處配置主數(shù)據(jù)模型上每個(gè)字段對(duì)重復(fù)性檢查結(jié)果共享的權(quán)值:
要理解權(quán)值的作用,就必須先理解C4C客戶主數(shù)據(jù)重復(fù)性檢查的算法Levenshtein algorithm。這個(gè)算法以開發(fā)者Vladimir Levenshtein命名,通過計(jì)算Levenshtein(萊文斯坦)距離來(lái)衡量?jī)蓚€(gè)字符串的相似度。
看個(gè)具體例子。
假設(shè)數(shù)據(jù)庫(kù)里有一條主數(shù)據(jù)記錄:
Name = Carl,
Email = jerry@sap.com
然后在C4C UI創(chuàng)建一個(gè)新的客戶主數(shù)據(jù):
Name = Corl,
Email = jerry@sap.com
其中Name字段的相似度為 1 - 1/4 = 75%,而Email字段相似度為100%。
然后在C4C里這兩個(gè)字段的權(quán)值配置如下:
Name = 30
E-mail = 70
按照Levenshtein algorithm的公式計(jì)算重復(fù)度:
SIM = SQRT( (302 * 0.752 + 702 * 12) / (302 + 702) ) = 0.97 = 97%
到底重復(fù)度多少的待創(chuàng)建客戶主數(shù)據(jù)被認(rèn)為是真正的重復(fù)數(shù)據(jù)呢?可以在Business Configuration里配置:
‘Strong – Duplicate Check for Business Partners’:85%
‘Medium – Duplicate Check for Business Partners’: 80%
‘Weak – Duplicate Check for Business Partners’: 70%
要獲取更多Jerry的原創(chuàng)文章,請(qǐng)關(guān)注公眾號(hào)"汪子熙":
轉(zhuǎn)載于:https://www.cnblogs.com/sap-jerry/p/9821726.html
總結(jié)
以上是生活随笔為你收集整理的SAP Cloud for Customer客户主数据的重复检查-Levenshtein算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 求一个感觉心好累的个性签名
- 下一篇: 把自己分支的内容合并到主分支上