大数据时代之大数据搜索与挖掘
?
???? 在企業日益發展的今天,數據、文檔、資料的不斷擴充,大大增加了我們查找搜索的難度,如何才能在最短時間找到我們需要的資料成為大型企業經常遇到的問題,我們統稱這些為大數據搜索。(www.lingjoin.com)
???? 大數據的特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。最后這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。大數據搜索的主要挑戰在于:海量處理規模、多字段多類型數據融合、高效的索引壓縮技術及毫秒級的索引更新技術。
JZSearch大數據搜索引擎是靈玖軟件聯合中科院與北理工的信息檢索專家,針對大數據搜索業務需求而打造的一套搜索引擎,具有專業精準、高擴展性和高通用性的特點。可支持文本、數字、日期、字符串等各種數據類型的高效索引,支持鄰近搜索、負面搜索、語義關聯搜索,可提供各類數據庫的實時搜索服務,并支持少數民族語言。目前已經應用于中國郵政搜索引擎、河北省標準搜索引擎、富基融通(納斯達克上市公司:EFUT)商品搜索以及新疆維文搜索引擎。
主要功能:
搜索基本功能包括:
1多字段關聯搜索:非結構化與結構化字段的關聯搜索,支持指定字段的搜索,也可以搜索多個字段,以及復雜表達式的綜合搜索;
2 指定字段排序:可以按照任意指定字段的排序;
3 精確搜索:支持精確匹配以及模糊匹配,默認為模糊匹配,忽略字母大小寫,采用雙引號進行精確匹配;
搜索特色功能包括:
1 內嵌正負面情感等極性分析,可以搜索任意對象的正負面結果;
2 語義聯想搜索:如搜索“馬鈴薯”可以同時返回“土豆”的內容,搜索“北京市”可以返回“北京”或者“首都”的內容;語義聯系詞表用戶可以自行根據專業知識定制;
3 搜索結果去重:按照指定字段對搜索結果進行去重;
4 鄰近搜索功能:可以要求兩個關鍵詞必須在一定的詞場范圍內。
5 內嵌了智能分詞系統。
6 數據庫實時同步:數據庫增刪改10秒內即可同步到搜索引擎中
搜索維護功能包括:
1 支持增量索引:系統可以在搜索服務不停的前提下,繼續索引新的數據,索引完成后,可以搜索新的數據;
2 自動備份與恢復機制,在建立索引和自動優化之前,在當前索引文件被破壞無法搜索的前提下,系統將自動恢復上次搜索正常的備份文件;
3 自動緩存機制:系統自動保存最近常用的搜索條件與結果,再次搜索時將直接推送搜索結果內容,可以將搜索響應速度提升30%以上;緩存會隨著新的索引數據自動更新,不存在緩存延遲問題;
4 自動優化機制:在系統索引碎片較多時,系統會自動優化歸并;
5 屏蔽指定文檔、指定關鍵詞的搜索服務,也可以恢復屏蔽信息;
6 實現的是多線程搜索服務;
7 兼容當前所有廠商的數據庫系統,其中SQL Server, Oracle,
MySQL,DB2等。系統支持多表關聯搜索;支持Windows/Linux/FreeBSD等操作系統,支持C/C++/C#/Java二次開發。
技術架構:
?
圖:JZSearch大數據搜索引擎系統架構
應用案例:
典型應用包括:中國郵政搜索引擎、河北省標準搜索引擎、富基融通(納斯達克上市公司:EFUT)商品搜索以及新疆維文搜索引擎。下圖為標準搜索應用界面。
?
圖:JZSearch大數據搜索引擎在標準搜索中的應用案例
轉載于:https://my.oschina.net/u/944980/blog/123302
總結
以上是生活随笔為你收集整理的大数据时代之大数据搜索与挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vue 项目中使用photo-spher
- 下一篇: 基于Abaqus的随机纤维增强复合材料拉