数据去重
2019獨角獸企業重金招聘Python工程師標準>>>
大數據去重
靈玖軟件: www.lingjoin.com 軟件下載地址: http://vdisk.weibo.com/s/xYka8
系統簡介:
大數據中不可避免地存在著重復數據,以互聯網新聞網頁為例,大約60%的互聯網新聞網頁都是重復的。所謂重復數據,往往指基本內容一致,但具體字樣往往還存在著少許差異的數據。不同的業務所定義的重復標準也不盡相同。
靈玖大數據去重解決方案能夠識別各種類型的重復數據,有效降低數據冗余。
主要功能:
能夠從大數據中快速識別出重復冗余數據;針對不同的業務類型,可以定制不同的重復標準。
應用案例:
靈玖大數據特征提取已經集成在多個公司的業務系統中。
圖1為針對同一機構不同簡寫、別名及筆誤造成的重名問題,可以從大數據業務中自動搜索并檢測出重復的機構數據,對數據進行清洗并整合。
?
?
圖1:大數據去重應用于中國郵政郵政查重系統
圖2為針對新聞轉載的問題進行自動識別。
圖2:大數據去重應用于新聞轉載識別
技術特點:
1.
速度快:內嵌指紋技術和相似性搜索技術,最大限度提升去重效率;
2.
處理精準:不同的去重標準可以定制,更貼切地滿足業務需求;
3.
開放式接口:采用靈活的開發接口,可以方便地融入到用戶的業務系統中,可以支持各種操作系統。
轉載于:https://my.oschina.net/u/944984/blog/123907
總結
- 上一篇: 谈谈java的BlockingQueue
- 下一篇: ×××安全协议之IPsec