日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势...

發布時間:2025/3/15 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基于特征學習的文本大數據內容理解及其發展趨勢

袁書寒,向 陽,鄂世嘉

(同濟大學計算機科學與技術系 上海 201804)

摘要:大數據中蘊含著重要的價值信息,文本大數據作為大數據的重要組成部分,是人類知識的主要載體。特征作為數據內在規律的反映,將文本大數據映射到反映數據本質的特征空間是文本大數據語義理解的重要手段。介紹了文本大數據的特征表示、特征學習,進而梳理了特征學習在文本大數據內容理解中的進展,最后闡述了基于特征學習的文本大數據內容理解未來的發展趨勢。

關鍵詞:文本大數據;特征學習;內容理解

doi: 10.11959/j.issn.2096-0271.2015030

Text Big Data Content Understanding and Development Trend Based on Feature Learning

Yuan Shuhan, Xiang Yang, E Shijia

(Department of Computer Science and Technology, Tongji University, Shanghai 201804, China)

Abstract: Big data contains important value information. Text big data as an important part of big data is the main carrier of human knowledge. Feature represents the inherent law of the data. Mapping the text big data to its feature space which reflects the nature of data is an important method to understand the semantic meaning of the text. Text big data feature representations and feature learning were reviewed. Then the progress of feature learning used in text content understanding was presented. Finally, the future development trends of big text data content understanding were discussed.

Key words: text big data, feature learning,content understanding


論文引用格式:袁書寒,向陽,鄂世嘉.基于特征學習的文本大數據內容理解及其發展趨勢.大數據,2015030

Yuan S H, XiangY, E S J. Text big data content understanding and development trend based on feature learning. Big Data Research, 2015030


1 引言

近年來,隨著互聯網、云計算、社交網絡的發展,網絡空間中的信息總量在飛速膨脹,網絡大數據時代已經到來。如何充分挖掘大數據中蘊含的價值成為全社會共同關注的話題。

在20世紀90年代,數據倉庫之父比爾·恩門(Bill Inmon)提出數據倉庫的概念,激活了沉睡在數據庫中多年的歷史數據,使之用于數據分析與決策支持,以挖掘出隱藏在數據背后的有價值信息。而在大數據時代,互聯網每分鐘都在產生大量的數據,YouTube每分鐘內上傳的視頻長達72 h,Facebook上每分鐘共分享了多達246萬條信息,Instagram每分鐘可產生21萬張新照片;在數據快速增長、數據類型多樣、數據結構復雜的背景下,傳統的基于靜態、淺層的數據分析方法,已經無法適應當前越來越多的對數據語義深層理解和計算應用的需求。因此,大數據的分析、挖掘成為學術界、工業界共同的研究熱點。

文本大數據是網絡大數據的重要組成部分,人們日常工作和生活中接觸最多的電子文檔也是以文本的形式存在。從海量文本數據中挖掘有價值的信息、知識,一直都是學術界研究的熱點問題,但是文本大數據的復雜性和規模性,導致傳統的全量數據模式下對文本進行分析變得異常困難。挖掘海量文本數據的特征是降低計算時空復雜性、實現文本語義理解的重要手段。

本文主要介紹近年來伴隨特征學習技術的發展,對海量文本數據特征發現,進而實現語義理解方面所取得的新進展。

2 文本大數據特征

人類是通過識別出物體的特征來認識不同的物體的,因此,特征作為數據本質的反映是理解數據的重要手段。將文本大數據映射到其特征空間,首先需要確定文本大數據的特征表示方式,正如不同的人認識同一物體時,會以不同的方式抽象物體的特征,特征表示方式也不盡相同,但是一個良好的特征表示方式是保證特征可理解、可計算的基礎;在確定了特征表示方式的基礎上,從文本大數據中學習能夠精確表達文本語義的特征是實現內容理解的關鍵。

2.1 特征表示

由于文本大數據的多源異構性,實現海量文本的內容理解首先需要將非結構化的文本數據轉化為計算機可操作的結構化模型,文本特征表示將文本信息映射到計算機可理解的特征空間,從而為計算機理解文本語義提供基礎。在文本數據分析領域,傳統的算法依賴人工定義反映輸入數據性質的特征作為模型的輸入,而為了盡可能地反映自然語言規律,提高算法的準確性,人工定義特征往往數量十分龐大,通常這一步驟稱作特征工程。為了生成大量的特征,特征工程首先定義一系列的特征模板(feature template),利用特征模板進一步產生語言的特征。例如,在語言模型的研究中,定義三元特征模板(trigram feature template),對于訓練語料庫中出現的任意三元組(u,v,w),若在出現詞語u、v的情況下,出現詞語w,則該特征為1;類似地,還可以定義二元特征模板、一元特征模板或詞語前綴模板等。

從特征模板的定義可以看出,最終生成的特征可以高達數十萬甚至數百萬級別,這也導致人工定義的特征十分稀疏,只有極少部分的特征為非0值,而當測試語料中出現訓練數據中沒有的特征時,將訓練數據產生的特征應用于測試數據,效果并不理想;且人工定義特征在面對特定任務時,通常存在過度細化的問題,而面對海量數據時,又存在表示不足的問題。

近年來,表示學習(representation learning)或非監督的特征學習(unsupervised feature learning)由于其可以自動地發現數據特征,從而有效地避免繁瑣的人工參與,成為重要的研究方向。深度學習作為特征學習的主要手段,不僅可以利用海量訓練數據實現分類、回歸等傳統機器學習的目標,還可以在模型的訓練過程中產生層次化的抽象特征,該特征表示是提高訓練準確性的重要基礎。圖1[1]對比了傳統機器學習和深度學習在實現步驟上的不同。

圖 1 深度學習與傳統機器學習步驟對比

一般而言,特征學習的目的在于學習一種數據的轉換方式,用于從數據中抽取有效的特征信息,最終使得數據的分類、預測更加準確,而有價值的特征信息應該滿足表達性、抽象性、排他性等要求[2]

(1)表達性

表達性是指合理大小的特征應該能夠有效表示足夠大的輸入數據。傳統的文本數據理解以one-hot的形式表示,n維的空間只能表示n個特征。分布表示(distributed representations)是一種基于神經網絡的表示方式,其思想來自于認知表示,它認為腦中的一個物體可以用許多描述該物體的神經元來有效表示,這些神經元可以獨立地激活或不激活,例如,一個n維的二值神經元集合,可以描述2n個不同的數據,即每一個數據都由所有的神經元共同表示,而每個神經元都參與到各個不同數據的表示[3]中去。因此,分布表示可以看作由n維連續實值向量構成的特征空間,向量的每一維共同構成數據的特征表示向量,特征表示維度不會隨著數據數量的增加而增加。

(2)抽象性

文本特征是對文本數據本身的抽象表示,因此文本的特征對文本數據的抖動應具有相應的頑健性,同時也不應該因任務的不同而變化。通常而言,對特征的抽象也具有層次性,低層次的抽象特征來源于輸入數據,高層次的抽象特征來源于對低層次抽象特征的進一步學習,抽象的層次越高對數據抖動的不變性就越強,例如,相似的詞匯、同義語句應該有相似的特征。因此,特征的抽象性反映了特征的不變性和層次性。

?

(3)排他性

文本特征的排他性是指特征應該刻畫數據不同方面的性質,對于互不相同的性質,其特征也應該互相排斥。例如,文本是由文本的結構、文本中詞語的選擇、文本詞語出現的順序等多種互相關系的因素共同組成,而有效的特征表示應該能夠盡可能多地分離出互相關聯的因素,使得不同的抽象特征反映不同的文本內在因素。

文本大數據特征的表達性、抽象性和排他性定義了特征表示的不同層次,逐層遞進。文本大數據的表達性保證了文本特征必須適合刻畫非結構化數據,并且特征表示本身能夠以固定的結構描述文本;在此基礎上,文本特征應該是對文本內容的歸納和抽象,文本大數據是無窮盡的,但是特征應該是有限的;最后,特征的排他性要求特征能夠使一個對象區別于其他對象,即如果一個文本具有某個特征,那么這個特征就能使這個文本區別于不具有這個特征的文本,從而為文本內容的精確理解提供基礎。

2.2 特征學習

特征表示規約了特征的抽象形式,特征學習則指在選擇特征表示的規范下,學習數據的特征。目前,對特征的學習主要有兩類方法:一類是通過監督學習的方法,利用訓練數據構建適合描述數據特征的模型;另一類是非監督學習的方法,該類方法主要通過降維將數據約簡至特征空間,以發現數據的內在規律。近年來,由于深度學習可以自動發現結構化深層次特征,從而逐漸成為特征學習的主要方法。深度學習本質上是一個深度、多層的神經網絡模型,由于它在圖像處理、語音識別、自然語言處理等應用上的重大突破而成為研究熱點。

2006年,Hinton等人[4]利用受限玻爾茲曼機(restricted Bolzman machine)非監督地預訓練(pre-training)深層神經網絡中每一層模型的參數,進而利用反向傳播算法有監督地更新整體模型的參數,極大地提高了模型在圖像識別上的準確率。其中,每一層受限玻爾茲曼機預訓練得到的模型都可以看作對圖像不同層次上的抽象特征。因此,早期的深度學習算法可分為兩個階段,首先是對每一層神經網絡非監督地預訓練該層模型參數,得到各層的抽象特征表示,進而將預先訓練好的各層神經網絡模型疊加,以構成深度模型,并依據訓練數據中的標注信息對整個模型的參數進行調優(finetune),以提高算法的準確性,從而體現出深度神經網絡復雜模型帶來的表示能力提高的優勢。隨著深度學習技術的自身發展[5,6],深度模型逐漸不再依賴非監督的預訓練,而是直接學習出結構化的模型并用于預測,特征學習也即通過深度模型訓練得到的層次化的抽象特征。

3 文本大數據內容理解

由于語言本身是一個復雜的結構對象,借助于特征學習方法可以較好地刻畫語言的復雜結構,從而實現對文本大數據的內容理解?;谔卣鲗W習的文本大數據內容理解目前主要從兩個方面展開:第一個方面是面向非結構化文本,以詞匯為基本單元,抽象詞匯的特征,進而組合以表示語句的特征,并在特征表示的基礎上實現對文本內容的理解;第二個方面是面向結構化知識數據,以知識表示三元組為基本單元,從非結構化文本中抽取出計算機可操作的結構化知識,實現知識的發現、推理等,從而理解文本的內容。

3.1 面向非結構化文本的內容理解

詞匯作為自然語言的最小組成單元,學習其特征是讓計算機理解詞匯進而理解文本的基礎;在理解詞匯的基礎上,闡述語義組合方法,語義組合通過將詞匯組合成短語、語句的特征表示,從而讓計算機理解文本大數據內容。

3.1.1 詞匯理解

在計算機中,所有的字符都是以固定的編碼形式表示,例如,漢字“中”在Unicode編碼中表示為“4E2D”,字母“A”的Unicode編碼為“0041”。計算機中的文字是由無任何意義的編碼拼接而成,均無法直接應用于文本理解。因此,一種能夠刻畫詞匯語義特征的表示方式是實現詞匯語義理解的關鍵。

以詞匯為基本單位,旨在研究建立合適的詞語表示模型,經典的當屬以WordNet[7]和知網(HowNet)[8]為代表的人工編制的知識庫。WordNet中每個詞項(synsets)都代表詞匯的一個具體含義,詞項間通過詞義的語義關系建立聯系,形成完善的詞匯網絡,以表達詞匯語義。知網則是把概念與概念之間的關系以及概念的屬性與屬性之間的關系構成網狀的知識系統,知網定義義原為最小的語義概念單元,并通過義原對義項的結構屬性相互關系描述詞匯語義。這類人工知識庫對詞匯的語義描述雖然準確,但是其規模小,缺乏可擴展性和自適應能力,難以滿足文本大數據語義理解的需要。

利用特征學習方法實現詞匯的語義表示源自神經網絡語言模型,語言模型的訓練目的是最大化詞匯出現的概率分布。在參考文獻[9]中,作者基于前向神經網絡語言模型,隨機初始化訓練語料庫中的詞向量表示,以海量文本作為訓練數據,假設在文本中套用滑動窗口產生的短句為正例樣本f,將滑動窗口中的某個詞隨機替換為詞典中的任一詞所產生的錯誤短句為負樣本f′,并令正例樣本的得分比負例樣本的得分高,以Hinge loss為目標函數,該目標函數在正例樣本和負例樣本中劃分距離為1的邊界,從而利用反向傳播算法更新詞向量,通過訓練得到的詞匯表示向量,使得相似的詞的特征表示也相似。

由于神經語言模型復雜,基于多層神經網絡結構計算詞匯表示向量,存在計算量較大的問題,訓練時間往往需要幾天甚至數周。Mikolov等人[10]提出了Word2vec模型,該模型極大簡化了多層神經網絡結構,僅包含一層投影層,使得計算效率大幅提高。該模型包括連續詞袋模型(continue bag of words,CBOW)和Skip-gram模型兩種詞向量的訓練方法。CBOW模型的目標是給定窗口為n的上下文wc,預測中間的詞wi,其中,投影層為對所有的上下文詞向量求平均值,即
,并利用投影層預測目標詞wi的概率;Skip-gram模型的目標則是給定目標詞wi,預測上下文的詞wc的概率。

3.1.2 語義組合

詞匯特征表示向量在一定程度上解決了詞匯的語義理解問題,語義組合則是將詞匯組合成詞組或者語句的語義表示形式,已實現語句級的語義理解。語義組合符合人們理解語句的方式,人們理解語句不是通過直接記憶句子,而是在理解詞語和詞語組合方式的基礎上理解句子的含義。語義組合的目的是將基本的詞語單元組合,以表達復雜語句的語義,語句整體的語義看作部分語義的組合函數。因此,語義組合是詞匯語義理解向語句語義理解的重要手段。語義組合函數定義為[12]:p=f(u,v,R,K),其中,u、v表示待組合部分,R表示u、v間的關系,K表示用于語義組合的其他上下文知識。

若將R定義為簡單的線性關系,則可以實現基于加法p=u+v和乘法p=u·v的組合函數,這種組合方式雖然簡單,但在組合時忽略了詞在文本中出現的順序,即u+v=v+u或u·v=v·u,存在明顯的缺陷。這導致不同含義的詞組可能有相同的表示形式,例如“種子植物”和“植物種子”有相同的表示,但是這兩個詞組前者描述一類植物,后者表示種子,意義并不相同。有研究顯示,英文文章的含義 80%來自于詞的選擇, 20%來自于詞的順序,因此忽略詞序對語義理解有較大的損失。

基于特征學習的復雜模型由于符合語義組合的方式、刻畫語句的特征,獲得廣泛的關注,并在語句的語義理解上取得很好的效果。遞歸自編碼(recursive autoencoders)[13]是一種非線性的語義組合模型,它以遞歸的方式組合自編碼網絡,構建短語或句子的語義特征表示。遞歸自編碼模型是由自編碼模型組合而成,自編碼模型是一種非監督的神經網絡模型,該模型以輸出數據約等于輸入數據為訓練目標更新模型參數,得到編碼后的隱藏層g為模型輸入數據的特征。如圖2所示,u、 v為待組合的兩個詞語的特征表示向量,利用自編碼模型計算組合后詞組的特征表示,為了訓練詞組的特征表示
,模型解碼詞組特征得到
,并以
為目標訓練模型的參數和詞組的特征表示向量。如圖3所示,在得到二元詞組的語義組合表示的基礎上,可以遞歸地擴展為一棵二叉樹的結構以實現語義擴展。目前,將句子構建成樹有兩種方式:一是利用貪心算法構建一棵樹,對于長度為n的句子,計算n-1個連續二元詞組所構造的自編碼模型錯誤率,選擇錯誤率最低的兩個節點組合構成一棵二叉樹,在剩下的n-2個節點中,繼續選擇自編碼模型錯誤率最低的連續兩個節點組合,直到組合至根節點為止;二是利用語法樹構建遞歸自編碼,該方法將句子解析為語法樹的形式,這不僅降低了計算復雜性,還保留了句子的語法結構,因此語義組合后能得到更好的語句特征。

圖 2 自編碼模型


圖 3 基于遞歸自編碼的語義組合模型

利用語義組合方法構建的抽象語句特征表示,可以更好地識別出語句的內在語義,使得相似的語句有相似的特征表示,從而用于語句的情感挖掘、詞組相似性、同義語句識別等語義理解任務中。

3.2 面向結構化知識的內容理解

結構化知識是文本內容理解的產物,同時也可用于文本的內容理解。知識數據作為搜索引擎、智能問答重要的信息源,扮演著越來越重要的角色。通過知識圖譜可以建立實體的關系網絡,賦予豐富的語義信息,從而為文本理解提供基礎。

3.2.1 知識表示

將知識表示成計算機可計算的符號化形式,是讓計算機理解知識的基礎。對知識表示的研究伴隨著計算機的整個發展階段,提出了一系列表示方法,如謂詞邏輯表示方法、框架式表示方法、產生式表示方法和面向對象表示方法等,不同的知識表示方法對問題解決有不同的幫助。良好的知識表示方法應能滿足不同類型使用者的要求,一般來說,對知識表示的要求應考慮以下幾個方面:表示知識的范圍要廣泛,表示的形式要適合于推理,并且要具有可解釋的能力。

隨著語義網的發展,將知識以本體(ontology)的形式進行組織,以描述概念和概念間的關系,這已經成為重要的知識表示方式;但是,由于本體的結構過于復雜,近年來語義結構相對簡單的知識圖譜成為知識表示的熱門發展方向。

通常,知識圖譜包括大量的實體(如奧巴馬、夏威夷)、實體的語義類別(如奧巴馬屬于政治家分類,夏威夷屬于城市的分類)和實體間的關系(如奧巴馬和夏威夷的關系是奧巴馬出生于夏威夷),并以三元組的形式表示(主體,關系,客體),記作(el,r,er)(如(奧巴馬,出生于,夏威夷))。

由于知識圖譜的重要作用,學術界和工業界都在努力構建大規模知識圖譜,以滿足實際應用需要,其中,典型的知識圖譜包括Freebase、NELL(never-ending language learning)等。Freebase是以眾包的形式構建的知識圖譜,因而包含一定的噪音數據,目前已包含大于4 000萬個實體、大于20 000種關系,共大約19億條記錄;而NELL項目自2010年以來,不斷地從互聯網中抽取結構化數據,且不停地迭代更新已有數據的置信度,目前已累計超過5 000萬條知識數據。

3.2.2 知識發現

利用特征學習表示知識數據是在詞匯特征表示捕捉詞匯語義的基礎上,構建關系的表示方法,進而實現結構化知識的發現。其中,經典的工作是TransE模型[14],該模型將三元組中的關系看作主體到客體的翻譯,使得三元組滿足的線性轉換。利用特征表示向量描述實體和關系,可以更加容易地計算實體間的語義關系。但是該方法不能很好地刻畫多對一、一對多或多對多的關系,例如在多對一的關系中,在關系r和客體的特征表示向量相同的情況下,由于三元組滿足el+r?er的映射要求,使得不同主體的特征表示也會相同,這顯然不符合特征的語義表示,因此該模型未來還有繼續改進的空間。在得到實體、關系的特征語義表示的基礎上,可以進一步實現關系的抽取和發現。例如,給定主體el和客體er,通過判斷與er-el最相似的關系特征表示向量r,確認兩個實體間的關系;或在給定主體el和關系r的情況下,判斷與el+r最相似的客體er,從而發現新的三元組知識數據。實驗顯示,通過簡單的向量加減法可以發現新的事實數據或判斷實體間的關系,這極大提高了知識發現的效率。

3.2.3 知識推理

計算機的推理能力是計算機智能的重要體現。在知識圖譜中,基于實體關系的推理是發現隱藏知識的重要手段。傳統的基于規則的推理方式,由于完全依賴人為定義,發現的關系受限于人為定義的規則庫,因此自動化的關系推理是豐富現有知識圖譜的重要手段。在基于線性關系發現知識數據的基礎上,進一步擴展線性轉換關系,可以實現多關系組合推理[15],給定兩個相關聯三元組(el, r,er)和(er,r’,er’),根據三元組的線性變換規則,可以認為在實體、關系的特征語義空間中,多個三元組間存在的組合推理關系,從而實現知識的推理。

3.2.4 隱式關系發現

知識圖譜是對文本大數據內容理解的產物,同時,知識圖譜作為豐富的知識資源可以反作用于文本的內容理解。由于個體文檔通常只包含少量的關系數據,這些關系數據可能不足以體現完整的實體關系網,但是通過與已有的知識圖譜匹配,可以完善實體間的關系,從而發現現有文本中無法挖掘的隱式關系,滿足文本數據深層次內容理解的需要。

4 基于特征學習的文本內容理解發展趨勢

基于特征學習的方法在文本內容理解問題上已經取得了一系列突破,未來結合網絡大數據的涌現,對文本內容理解的研究還將繼續發展。針對非結構化文本的內容理解,深度學習由于其可以抽象高層次的概念特征,是未來重要的研究方向;而針對結構化知識的內容理解,知識圖譜可以結構化、形式化地刻畫文本的語義內容,進而實現關聯推理,是實現文本內容深度理解的重要手段。

深度學習作為非結構化文本內容理解的重要方法,未來將繼續探索適合文本內容理解的模型,以提高內容理解的準確性。語言是一種序列模型,語言本身具有一定連續性,因此一個能刻畫語言時序特征的模型是實現文本內容理解的重要基礎。由于遞歸神經網絡具有一定的時序性和記憶性,利用遞歸神經網絡訓練文本的特征符合語言的形式,在機器翻譯、自然語言生成等應用中都取得較好的結果,遞歸神經網絡正逐漸成為文本內容理解的重要模型。在遞歸神經網絡模型的基礎上,有研究進一步提出有長期記憶能力的遞歸模型,并將該模型用于自動問答中[16],取得了較好的結果。具有較強記憶能力的模型對于文本內容理解起著重要的作用。

同時,對基于深度學習方法自動學習的文本特征的可解釋性也是未來研究的方向。不同于直觀的人工定義特征,通過特征學習方法得到文本抽象特征,其對人而言的可解釋性并不強。最近,Google的研究人員提出了Deep Dream方法,可視化地針對圖像識別的深度模型各層特征。對于文本而言,目前對于文本的抽象特征以及模型自身的可解釋性都還有待進一步研究,只有理解了模型及其抽象特征,才能更好地實現文本內容的理解。

知識圖譜作為結構化知識的重要組織形式,刻畫實體關系的演化是重要發展方向。實體間的關系是不斷演化發展的,具有時序性,因此有其自身的生命周期,繪制一張動態的知識關系網,對文本大數據內容理解的實時性有很大幫助。此外,目前的知識圖譜圍繞實體展開,描述實體間的關系;未來如何從文本大數據中抽取事件信息,實現事件的發現和推理,是文本大數據全面深入內容理解的重要方向。

5 結束語

隨著文本大數據的涌現,文本處理已經從數據不足轉向數據過量,雖然文本大數據主要是無標注或者弱標注的數據,但是這類數據正好為特征學習方法提供了數據基礎,進而實現了特征發現基礎上的文本語義理解。基于特征學習的文本內容理解有了許多探索和突破,但是由于自然語言自身的復雜性、模糊性,特征學習需要更為準確的結構以刻畫自然語言。相信隨著特征學習技術的發展和對自然語言本身認識的加深,對文本大數據的內容理解能力一定會進一步提高。

參考文獻

[1] Bengio Y. Deep learning: theoretical motivations. Presented at the Deep Learning Summer School, 2015

[2] Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2013, 35(8): 1798~1828

[3] Bengio Y. Learning deep architectures for AI.Foundations and Trends in Machine Learning, 2009, 2(1): 1~127

[4] Hinton G E, Osindero S. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527~1554

[5] Srivastava N, Hinton G, Krizhevsky A, et al.Dropout: asimple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 2014, 15(1): 1929~1958

[6] Nair V, Hinton G E. Rectified linear unitsimprove restricted boltzmann machines. Proceedings of the 27th International Conference on Machine Learning (ICML-10), Haifa, Israel, 2010: 807~814

[7] Miller G A. WordNet: a lexical database for English. Communications of the ACM, 1995, 38(11): 39~41

[8] 董振東, 董強, 郝長伶. 知網的理論發現. 中文信息學報, 2007, 21(4): 3~9

Dong Z D, Dong Q, Hao C L. Theoretical findings of HowNet. Journal of Chinese Information Proceeding, 2007, 21(4): 3~9

[9] Collobert R, Weston J. A unified architecture for natural language processing : deep neural networks with multitask learning.Proceedings of the 25th International Conference on Machine Learning, Helsinki,Finland, 2008

[10] Mikolov T, Corrado G, Chen K, et al. Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR, Florida, USA, 2013: 1~12

[11] Maaten L V D, Hinton G. Visualizing data using t-SNE. Journal of Machine Learning Research, 2008(9): 2579~2605

[12] Mitchell J, Lapata M. Composition indistributional models of semantics. Cognitive Science, 2010, 34(8): 1388~1429

[13] Socheer R, Perelygin A, Wu J Y, et al.Recursive deep models for semantic compositionality over a sentiment treebank.Proceedings of Conference on Empirical Methods in Natural Language Processing(EMNLP 2013), Washington DC, USA, 2013: 1631~1642

[14] Bordes A, Usunier N, Garcia-Duran A, et al.Translating embeddings for modeling multi-relational data. Proceedings of Conference on Advances in Neural Information Processing Systems (NIPS), SouthLake Tahoe, Nevoda, US, 2013: 2787~2795

[15] Garcia-Durran A, Bordes A, Usunier N. Composing relationships with translations. Proceedings of Conference on Empirical Methodsin Natural Language Processing (EMNLP 2015), Lisbon, Portugal, 2015: 286~290

[16] Sukhbaatar S, Szlam A, Weston J, et al.End-to-end memory networks. arXiv Preprint arXiv:1503.08895, 2015


總結

以上是生活随笔為你收集整理的《大数据》2015年第3期“网络大数据专题”——基于特征学习的文本大数据内容理解及其发展趋势...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。