论文总结2
基于內容的網頁特征提取 2001
使用專業網絡爬蟲獲取網頁,巨量網頁數據保存在分布式的LDAP (輕量級目錄服務協議)目錄服務器中, 通過輕量級目錄服務協議維護管理。分詞詞典通過提取過濾很多相關領域網頁生成,手動更新。特征提取:正文分詞然后計算詞頻;標記:將html文檔生成標記樹,選取一些重要標記;超鏈接:壓縮鏈接樹,壓縮超鏈接森林。
?
基于Web挖掘的專業文本特征提取方法研究 2007
位置權重,目錄和鏈接。
?
基于模板抽取和豐富特征的藥名詞典生成 2009
基于上下文的模板提取候選詞,再用機器學習篩選。自學習的,英文詞匯的。
本文提出抽取上下文模板的步驟如下:
1.E=已有藥名的種子集合,T=文本集合(語料)
2.在語料T中,找到E中每個藥名的上下文(context),組成集合C??? 窗口前后設定大小不一樣
3.從上下文集合C中,確定引導詞????? 基于IDF的方法,算權重
4.對每個引導詞確定的上下文集合,構建有向連通圖
5.根據權值剪枝,確定最后包含上下文信息的模板,計算處理后的上下文重復度,按重復度的大小排序,取排名前M個為最終目標模板。
本文從以下幾個角度選擇藥名的詞特征:
(1)采取bag ofwords的形式,以每個單詞作為特征,不考慮單詞之間的順序關系。一些詞在測試集的位置和訓練集的位置不一樣,但是卻表達同樣的意思,所以bag ofwords選取特征的方式,可以囊括到這些詞。
(2)對候選藥名的每一組成單詞選擇單元、二元、三元詞特征。與前面所述相反,存在一些詞隨著出現位置的變化,意思也會改變,利用單元、二元、三元詞特征可以彌補那些位置變化意思也變化的詞;
(3)選取邊界特征,分別從候選藥名左邊界開始選取單元、二元、三元詞特征,再從右邊界選取單元、二元、三元詞特征。這里將n.gram與位置信息結合,考慮候選藥名邊界特征。
(4)以藥名的前l到6個字母分別作為特征。字母特征利用了英文單詞具有詞綴、詞干、詞根的信息,很多藥名雖然不相同,但是卻含有相同的詞綴、詞干、詞根。以前面1到6個字母為特征可以捕捉到藥名的詞綴信息。
(5)以藥名的后1到6個字母分別作為特征。如第(4)條同樣的原理,這樣的選取方法可以捕捉到藥名的詞根信息。
(6)設置滑動窗口,確定大小S,選取滑動窗口內的部分字母作為特征。如第(4)條同樣的原理,這樣的選取方法可以捕捉到藥名的詞干信息。
(7)選取詞型特征,將αβγ用大寫字母G來代替,將數字0-9用0代替,將I、II、HI用R來替。這里采取正則表達式的方式,可以使希臘字母、數字等特殊符號做統一處理。因為訓練集中不可能包含所有的希臘字母或數字,但是具有希臘字母或數字組成的藥名卻出現在測試集中,為防止將這樣的藥名漏掉,故用上述第(7)條方式選取特征。
?
元事件與主題事件抽取技術研究綜述
元事件抽取研究的主要方法有模式匹配和機器學習兩大類。主題事件抽取有基于事件框架的和基于本體的。
給了一些研究現狀和發展趨勢。
?
面向文本的事件信息抽取方法的研究 2012
研究面向文本的事件信息抽取工作,建立一個事件信息抽取系統。該系統首先過濾包含關鍵字的原始語料; 然后采用層次聚類( Hierarchical,HCL) 和最長公共子序列算法相結合的方法抽取事件信息,得到最初的模式; 最后通過是否包含關鍵字進行模式獲取,進而提取信息,最終得到事件要素。
事件信息抽取系統分為7 個模塊,分別為: 過濾語料、最長公共子序列、句子聚類向量、層次聚類、聚類模式過濾、模式獲取和信息提取。
?
一種基于信息熵的web 信息提取的方法研究 2012
提出了基于信息熵和DOM樹的提取web正文信息的方法,利用文檔對象模型技術提取網頁包含的內容,將得到的信息融合成信息列表,再利用熵原理從信息列表中識別出有序信息列表,通過設置內容長度閾值,將無關的信息結點過濾掉,只剩下正文信息。
?
自然語言信息抽取中的機器學習方法研究 2005
模式匹配和機器學習,基于規則的和基于統計的,后者有無監督、有監督、半監督。
特征選擇
主要有四種策略用于統計學習中的特征選擇。
第一種策略稱為“包裝器方法”(wrapper approach),它的思想是先生成不同特征子集,然后通過執行學習算法和測量結果分類器的準確性對各個子集進行評估。各個特征子集一般通過前向選擇或后向刪除方法來生成;
第二種策略是將所有可能的特征包含到模型中,但對模型中的參數值引入一個懲罰值,這將導致與無用特征相關的參數將變得非常小,甚至可能為0;
第三個策略是計算特征的某種相關性,然后刪除相關性低的特征。測度特征相關性一個最簡單的方法是計算一個特征和某類別的互信息。不過,這種相關性測度方法卻不能捕捉特征之間的交互性。另外幾種方法已經被提出用于確定這種特征間的交互性,如RELIEFF,馬爾可夫鏈(Markov blankets)等方法;
第四個策略是先擬合一個簡單的模型,然后分析這個被擬合的模型以確定相關的特征。如Chow描述了一個高效的算法用于對一個數據集擬合一個樹結構的貝葉斯網絡,這個網絡可以被用來分析以刪除對類別影響較小的特征。
信息抽取的統計學習方法比較
1最大熵方法
2隱馬爾可夫模型方法(HMMs)
3最大熵隱馬爾可夫模型方法(MEMMs) 標注偏置問題
4條件隨機場方法(Conditional Random Fields) 應用于命名實體識別、文本淺層分析等信息抽取任務的實驗,實驗結果顯示該模型具有良好的性能。
5核(kernel)的方法
當前對各種集成技術(如boosting,bagging和Stacking等)的研究非常熱門。性能變好,但是系統變復雜。
弱指導學習
互助訓練Co—Training,主動學習(Active Learning)
發展趨勢
首先它的模型、算法還需要不斷改善。將人工規則加入到統計模型中,特別是如何將各種語義約束規則加入到模型中是需要進一步研究的內容。
再者,目前的各種主動學習方法均是基于單個學習模型的,可以擴展為基于集成(ensemble)的主動學習,一定會進一步減少語料標注的代價。
此外,為多學習器的集成建立一個統一的理論框架。
轉載于:https://www.cnblogs.com/chrisnannan/archive/2012/12/05/2802296.html
總結
- 上一篇: 组策略应用规则示例
- 下一篇: LAMP平台架构浅析