适用于特殊类型自然语言分类的自适应特征谱神经网络
點(diǎn)擊上方藍(lán)字關(guān)注我們
適用于特殊類型自然語言分類的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)
王一峰,?孫麗茹,?崔良樂,?趙毅
哈爾濱工業(yè)大學(xué)(深圳)理學(xué)院,廣東 深圳 518055
??
摘要:計(jì)算機(jī)算力的提升使得深度學(xué)習(xí)算法迅速發(fā)展,然而由于古詩文特殊的語序、用詞、結(jié)構(gòu)、句式、文法結(jié)構(gòu)、表達(dá)方式,深度學(xué)習(xí)模型需要消耗更多的算力進(jìn)行特征提取等工作,因此并未在這一領(lǐng)域取得廣泛的應(yīng)用。為此,提出了一種新型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)。該算法有效減少了運(yùn)算時(shí)間,可以自適應(yīng)地選擇對(duì)分類最有用的特征,形成最高效的特征譜,得到的分類結(jié)果具有一定的可解釋性,而且由于其運(yùn)行速度快、內(nèi)存占用小,因此非常適用于學(xué)習(xí)輔助軟件等方面。以此算法為基礎(chǔ),開發(fā)了相應(yīng)的個(gè)性化學(xué)習(xí)平臺(tái)。該算法使古詩文分類的準(zhǔn)確率由93.84%提升到了99%。
關(guān)鍵詞:自適應(yīng)特征譜?;?神經(jīng)網(wǎng)絡(luò)?;?文本分類?;?古詩詞?;?拉普拉斯矩陣
論文引用格式:
王一峰,?孫麗茹, 等.適用于特殊類型自然語言分類的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)[J].大數(shù)據(jù), 2020, 6(4):92-104.
WANG Y F, SUN L R, et al.Adaptive feature spectrum neural networks for special types of natural language classification[J].Big Data Research, 2020, 6(4):92-104.
1 引言
文本分類問題是自然語言處理領(lǐng)域一個(gè)十分常見的問題,文本分類應(yīng)用非常廣泛,例如輿情分析、影評(píng)分析、新聞情感分析、新聞內(nèi)容分類、垃圾郵件過濾、敏感信息自動(dòng)屏蔽、社交軟件交流中對(duì)某句話的情感趨勢(shì)分析,以及購物網(wǎng)站中的“好評(píng)度”評(píng)估。總而言之,語言本身是一種人類智慧的體現(xiàn),而文本作為語言的載體,蘊(yùn)含著大量的信息和規(guī)律,因此讓計(jì)算機(jī)掌握這種規(guī)律并進(jìn)行模式識(shí)別和分類是一項(xiàng)對(duì)算法的巨大挑戰(zhàn)。而古詩文作為一種特殊的語言形式,其表達(dá)方式與現(xiàn)代語言相比更加隱晦、精練,與白話文相比分類難度更高,因此本文選擇古詩文分類問題作為文本分類的切入點(diǎn),以便提出更優(yōu)的文本分類算法。
文本分類算法是自然語言處理中很重要的一類算法,在20世紀(jì)50年代就已經(jīng)有科學(xué)家借助“專家系統(tǒng)”對(duì)文本進(jìn)行分類,然而該方法可覆蓋的范圍以及分類準(zhǔn)確率都非常有限,只能用于解決一些條件明確、描述清晰且有條理的文本分類問題。隨著統(tǒng)計(jì)學(xué)方法的發(fā)展,特別是20世紀(jì)90年代后互聯(lián)網(wǎng)在線文本數(shù)量的增長(zhǎng)和機(jī)器學(xué)習(xí)學(xué)科的興起,逐漸形成了一套解決大規(guī)模文本分類問題的經(jīng)典方法,其主要流程是“人工特征工程+分類器”,即把整個(gè)文本分類問題拆分成特征工程和分類器兩部分。對(duì)于不同類型的文本,特征選取方法是不同的,分類器的設(shè)計(jì)也是不同的,例如:采用Apriori算法對(duì)同時(shí)出現(xiàn)在語句中的特征項(xiàng)進(jìn)行篩選,進(jìn)而實(shí)現(xiàn)分類;基于遺傳算法對(duì)詩文特征項(xiàng)進(jìn)行選取,接著利用樸素貝葉斯模型進(jìn)行分類;通過均值漂移、譜聚類、k-means等聚類算法選取特征,隨后采用支持向量機(jī)、距離加權(quán)最近鄰、貝葉斯模型等分類器進(jìn)行分類。其中,使用聚類算法尋找特征,隨后采用加權(quán)最近鄰分類器的方法是目前對(duì)中國(guó)古詩文分類準(zhǔn)確率最高的一種方法,平均準(zhǔn)確率可以達(dá)到93.84%,其中,針對(duì)某一特定類型古詩詞文本的分類準(zhǔn)確率最高可以達(dá)到96.67%。
然而這些分類方法存在幾個(gè)主要缺點(diǎn)。首先,現(xiàn)有的古詩文本分類算法的性能依賴于初始特征庫的選取,以專家選取的特征庫為基礎(chǔ)進(jìn)行特征聚類、文本分類的性能遠(yuǎn)好于以普通人選取的特征庫為基礎(chǔ)的性能。除此之外,找特征的過程與分類的過程往往是分離的,這會(huì)導(dǎo)致一些被選取的特征對(duì)分類任務(wù)作用不大,應(yīng)考慮將古詩文分類的結(jié)果直接反饋到找特征的過程,進(jìn)而幫助找到更好的分類特征。這些缺陷最終導(dǎo)致在面對(duì)不同類型的文本,尤其是面對(duì)語言委婉、內(nèi)容寫意、抒情的文本時(shí),難以設(shè)計(jì)出效果良好的分類器。因此本文設(shè)計(jì)了自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)來完成文本分類任務(wù),它可以自適應(yīng)地選擇對(duì)分類有效的特征,并組成“最優(yōu)特征譜”。
2 數(shù)據(jù)預(yù)處理
在機(jī)器學(xué)習(xí)算法中,輸入的數(shù)據(jù)通常是數(shù)值型的,因此需要將文字型文本特征轉(zhuǎn)換為數(shù)值型數(shù)據(jù)特征,將輸入模型的文本變成向量,從而確保模型可以進(jìn)行計(jì)算和分類。
具體操作是用高頻詞組成特征庫,再將特征庫中的詞用向量表示。首先,使用Sunday算法查找古詩文中出現(xiàn)頻率較高的字詞,組成“特征庫”。使用Sunday算法的好處是在字符串匹配時(shí)可以大幅減少運(yùn)算時(shí)間。Sunday算法查找原理如圖1所示。
圖1???Sunday算法查找原理
任務(wù)是判斷文本串“枯藤老樹昏鴉,小橋流水人家,古道西風(fēng)瘦馬。”中是否包含模式串“小橋流水”。從左端開始,比較模式串的第一位,如果匹配,則依次向下比較;若不匹配,則比較文本串中下一字符是否出現(xiàn)在模式串中(本例中“昏”并未出現(xiàn)在模式串“小橋流水”中),因此直接向右平移m+1個(gè)單位(m為模式串長(zhǎng)度)。重復(fù)上述過程,若發(fā)現(xiàn)文本串的下一字符出現(xiàn)在模式串中:本例中“流”出現(xiàn)在“小橋流水”中,這時(shí)直接將兩個(gè)“流”對(duì)齊,再逐位比較,最終發(fā)現(xiàn)匹配成功。
由于古詩文中單音節(jié)詞占多數(shù),且文法注重典故、駢驪對(duì)仗、音律工整,因此在內(nèi)容表達(dá)上就會(huì)有一些犧牲。此外,一些在現(xiàn)代文中并不多見的特征詞(如“金樽”“澗戶”“左遷”等)在古詩文中卻并不罕見,現(xiàn)代文的分詞方法有時(shí)很難將其準(zhǔn)確分開,因此在借助Sunday算法進(jìn)行詞頻統(tǒng)計(jì)的基礎(chǔ)上,還需要進(jìn)行一些人工的篩選,這也是本文的一項(xiàng)重要工作。
在得到由高頻字詞組成的特征庫后,要進(jìn)行更精細(xì)化的篩選。目標(biāo)是將輸入的古詩文分成4類,因此特征詞的選擇標(biāo)準(zhǔn)應(yīng)與該特征詞對(duì)4種類型古詩文本的區(qū)分表示度相關(guān)。有些字詞雖然出現(xiàn)頻率高,但對(duì)于分類而言用處不大。按照愛情、憂國(guó)憂民、山水田園、哲理詩的順序,從4類詩中各選取一句話:“愿得一心人,白頭不相離”“秦時(shí)明月漢時(shí)關(guān),萬里長(zhǎng)征人未還”“澗戶寂無人,紛紛開且落”“人生得意須盡歡,莫使金樽空對(duì)月”。若直接將文本的出現(xiàn)頻次作為文本分類的特征輸入,會(huì)發(fā)現(xiàn)4類詩中均出現(xiàn)了“人”字,而“月”字則出現(xiàn)了兩次。“人”和“月”看起來似乎是很重要的兩個(gè)特征,但事實(shí)上,這兩個(gè)詞是比較常見的、不具備區(qū)分能力的詞,很多詩篇會(huì)用到,因此不能單純地選取文本的詞頻來反映詩的特征,而諸如“白頭”“長(zhǎng)征”“澗戶”“金樽”等僅出現(xiàn)一次的詞反而更能反映其類別特征。因此,使用詞頻-逆文本頻率(term frequency–inverse document frequency,TF-IDF)方法對(duì)其進(jìn)行向量表示。
設(shè)愛情類、山水田園類、憂國(guó)憂民類、哲理類古詩分別對(duì)應(yīng)類別1、類別2、類別3、類別4,每種類別下對(duì)應(yīng)的篇數(shù)分別為N1、N2、N3、N4,第i類下第j篇古詩文包含的漢字總數(shù)目為ni,j,特征詞t在該篇詩文中出現(xiàn)次數(shù)為nt,i,j(i=1,2,3,4,j=1,2,…,Ni),則特征詞t在第i類文本中的詞頻TFt,i為:
TFt,i表示特征詞t在第i類文本中的出現(xiàn)率,同時(shí)也是對(duì)詞數(shù)的歸一化,以避免其偏向更長(zhǎng)的文本文件。逆文本頻率(IDF)是對(duì)某個(gè)特征詞的“普遍重要性”的度量。設(shè)所有文本中包含特征詞t的篇數(shù)為DFt,所有文本數(shù)量為N=N1+N2+N3+N4,則特征詞t的IDFt為:
因此,特征項(xiàng)t的表示一個(gè)1×4的向量:
篩選標(biāo)準(zhǔn)是向量的標(biāo)準(zhǔn)差:
較大的特征詞對(duì)特定類型的古詩文有更強(qiáng)的表示能力。該做法的主要思想是:如果一個(gè)詞在某一類文本中出現(xiàn)頻率很高,而在所有文本中出現(xiàn)頻率卻不高,那么該詞對(duì)于這類文本就具有很強(qiáng)的代表性和區(qū)分度,反之亦然。因此可以過濾一些常見的詞語,保留重要的詞語,從而實(shí)現(xiàn)特征詞的精細(xì)化提取。
下一步需要將最終篩選出的特征詞進(jìn)行向量化表示。現(xiàn)有的古詩文本分類研究多采用TF-IDF方法進(jìn)行特征詞的向量化表示,并且取得了90%以上的準(zhǔn)確率。詞嵌入(word embedding)表示被提出后,文本分類問題逐漸向基于詞嵌入表示或詞向量的方法展開研究,如之前基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的文本分類方法以及近期基于Transformer的文本分類方法。本文對(duì)以下兩類方法進(jìn)行了融合,TF-IDF表示方法具有更強(qiáng)的可解釋性,并且在古詩文分類領(lǐng)域使用時(shí)間較長(zhǎng),而詞嵌入表示方法則在近年來被廣泛應(yīng)用于自然語言處理領(lǐng)域,借助深度學(xué)習(xí)模型強(qiáng)大的性能,其表示效果得到了廣泛的認(rèn)可。
借助古文、白話文識(shí)別任務(wù)來完成特征詞嵌入表示。與古詩詞主題分類不同,古文、白話文識(shí)別任務(wù)的數(shù)據(jù)集更加方便易得,且標(biāo)簽也更易標(biāo)注。采用連續(xù)詞袋(continuous bag-of-words,CBOW)模型將特征詞轉(zhuǎn)化為1×10 0的向量,并取其中的5個(gè)維度進(jìn)行可視化,如圖2所示。
圖2???基于CBOW模型的古詩文特征詞向量可視化
從圖2可以看到,位置相近、大小相近、顏色相近的特征詞具有更加相近的含義。設(shè)由CBOW模型得到的特征詞t的詞向量為,則特征詞t的最終表示向量為:
其中,為向量的標(biāo)準(zhǔn)差。最終得到的詞向量不僅包含特征詞的語義信息,同時(shí)也包含該特征詞對(duì)分類任務(wù)的重要度評(píng)價(jià),在自然語言處理領(lǐng)域的很多研究中,有將詞頻-逆文本頻率信息作為權(quán)重進(jìn)而構(gòu)造詞典的范例。因此將結(jié)合了TF-IDF方法與CBOW方法得到的詞向量作為最終的特征詞表示結(jié)果。
3 自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)的構(gòu)造
由于古文的句式、格式、表達(dá)方式都有別于現(xiàn)代文,且單音節(jié)詞占多數(shù),一篇古文包含的特征詞數(shù)量繁多,如果使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類,計(jì)算規(guī)模將非常龐大。為了使算法可以更方便地搭載于手機(jī)、學(xué)習(xí)機(jī)等終端設(shè)備之上,進(jìn)而使得基于該算法的軟件成為廣泛的學(xué)習(xí)平臺(tái),除了分類準(zhǔn)確率之外,對(duì)內(nèi)存占用、運(yùn)行速度也有一定的要求。同時(shí),為了滿足教育大數(shù)據(jù)、輔助學(xué)習(xí)軟件的需要,應(yīng)在一定程度上對(duì)最終的分類結(jié)果進(jìn)行解釋,或者對(duì)特征選擇進(jìn)行一定程度的可視化。因此,筆者設(shè)計(jì)了自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò),它可以對(duì)眾多特征詞進(jìn)行篩選,自適應(yīng)地形成對(duì)分類最有意義的特征譜,而后只需在輸入的古詩文中進(jìn)行檢索,將特征譜中對(duì)應(yīng)的特征詞提取出來,并乘以對(duì)應(yīng)權(quán)重,然后將結(jié)果輸入后續(xù)神經(jīng)網(wǎng)絡(luò),即可得到分類結(jié)果。
特征是對(duì)數(shù)據(jù)內(nèi)在規(guī)律的反映,而對(duì)特征之間相互關(guān)系的理解與升華則是文本大數(shù)據(jù)語義理解的重要手段。本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)將特征詞之間的相互關(guān)系融合在拉普拉斯矩陣中。拉普拉斯矩陣是一種圖的矩陣表示形式,描述了圖中各節(jié)點(diǎn)之間的關(guān)系。文本分類任務(wù)一般是通過對(duì)不同特征的相互耦合來完成的,因此,對(duì)特征與特征之間關(guān)系的描述正是其所需要的。下面將拉普拉斯矩陣的一部分作為神經(jīng)網(wǎng)絡(luò)的輸入層。
為了得到拉普拉斯矩陣L,首先需要計(jì)算各特征項(xiàng)的相似度矩陣A,其中Ai,j?=cos(t?i,t?j),這里采用余弦相似度來表征特征項(xiàng)ti和特征項(xiàng)tj的相似度。進(jìn)而可以構(gòu)建對(duì)角矩陣D,其中對(duì)角元素Dii為:
則拉普拉斯矩陣L可表示為:
由于拉普拉斯矩陣是對(duì)稱矩陣,因此只需將其上三角部分取出作為拉普拉斯層即可。
接下來構(gòu)造自適應(yīng)特征譜神網(wǎng)絡(luò)的核心結(jié)構(gòu)——自適應(yīng)特征譜層。它由拉普拉斯層經(jīng)過全連接網(wǎng)絡(luò)(全連接網(wǎng)絡(luò)就是層與層之間的計(jì)算過程,即把前一層與后一層的節(jié)點(diǎn)全部相連)得到。整體的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3展示了自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。首先,拉普拉斯層記載著特征項(xiàng)之間的 全部關(guān)系,后接一個(gè)全連接網(wǎng)絡(luò),旨在輸出最優(yōu)的特征譜,后續(xù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將以該特征譜為基礎(chǔ)完成文本分類任務(wù)。設(shè)特征庫中有n個(gè)特征項(xiàng),這里設(shè)定在特征譜中只保留m個(gè)特征項(xiàng)(m<n),使得神經(jīng)網(wǎng)絡(luò)留下對(duì)分類最有用的特征。如果前期負(fù)責(zé)生成特征譜的網(wǎng)絡(luò)工作效果不佳,將導(dǎo)致后續(xù)文本分類效果不佳,因此對(duì)誤差函數(shù)做反向傳播(back propagation,BP),既調(diào)整了分類網(wǎng)絡(luò),也調(diào)整了特征生成網(wǎng)絡(luò)。這就解決了前文提到的分類器與特征選擇工作分離而導(dǎo)致效率不高的問題,因此稱之為“自適應(yīng)特征譜”。為了緩解訓(xùn)練過程中的過擬合問題,在該全連接網(wǎng)絡(luò)中進(jìn)行了Dropout操作,以減少特征檢測(cè)器(神經(jīng)元節(jié)點(diǎn))間的相互作用,達(dá)到正則化的效果,本文將Dropout比率設(shè)置為0.5。
圖3???自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
此外,特征譜層還減小了特征數(shù)量,降低了對(duì)算力的損耗。因此本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)算法適合處理復(fù)雜的文本分類問題,即使輸入海量的數(shù)據(jù),運(yùn)算量也不會(huì)過大,這是因?yàn)橐筇卣髯V層只能保留一定量的、對(duì)分類最有用的特征,對(duì)分類最有用的特征并非像傳統(tǒng)方法那樣由人為因素決定,而是完全通過大量數(shù)據(jù)自主訓(xùn)練得到的。自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)算法的分類準(zhǔn)確率會(huì)隨著輸入特征的增多而提高。
完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練后,得到了現(xiàn)階段對(duì)分類最有意義的特征譜,被稱為“最優(yōu)特征譜”。由于拉普拉斯層與自適應(yīng)特征譜層之間的網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)完成了根據(jù)分類任務(wù)篩選特征、給出相應(yīng)權(quán)重的任務(wù),因此在測(cè)試或應(yīng)用時(shí),只保留最優(yōu)特征譜及后續(xù)的輸入層、隱藏層、輸出層結(jié)構(gòu),這大大縮短了實(shí)際應(yīng)用時(shí)的響應(yīng)時(shí)間。以最優(yōu)特征譜為基礎(chǔ),對(duì)每篇古詩文對(duì)應(yīng)的表示向量做如下操作:用Sunday算法在輸入文本中搜索最終保留的m個(gè)特征詞,假設(shè)檢索到了k個(gè)特征詞(k≤m),則對(duì)這k個(gè)特征詞對(duì)應(yīng)的特征譜中的數(shù)值進(jìn)行歸一化,之后分別乘以這k個(gè)特征詞的詞向量,最終再對(duì)這k個(gè)詞向量求和。這種方法的本質(zhì)是以k個(gè)特征詞在最優(yōu)特征譜中對(duì)應(yīng)的數(shù)值為基礎(chǔ),對(duì)其對(duì)應(yīng)的詞向量進(jìn)行加權(quán)平均,最終得到可以表示輸入文本的文本向量。借助這種方法,該模型的輸入維度始終可以保持為詞向量的維度,運(yùn)行速度、內(nèi)存占用并不會(huì)隨著輸入文本長(zhǎng)度的增加而發(fā)生明顯變化。
4 實(shí)驗(yàn)結(jié)果與改進(jìn)空間
本文所用的古詩文數(shù)據(jù)均來自“古詩文網(wǎng)”,該網(wǎng)站將所有古詩都進(jìn)行了分類,本文將該網(wǎng)站對(duì)古詩的分類類別作為每首古詩對(duì)應(yīng)的標(biāo)簽,并輸入本文設(shè)計(jì)的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最終的結(jié)果。
為了驗(yàn)證本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)算法的準(zhǔn)確率,進(jìn)行了兩次對(duì)比實(shí)驗(yàn),使用的是目前對(duì)古詩文本分類準(zhǔn)確率很高的兩種方法:基于譜聚類算法的特征聚類+加權(quán)最近鄰分類器;基于k-means算法的特征聚類+加權(quán)最近鄰分類器。兩種方法都以預(yù)先選定的特征庫為基礎(chǔ),對(duì)其中的特征項(xiàng)進(jìn)行聚類分析。其出發(fā)點(diǎn)在于每個(gè)特征對(duì)每一類型文本的表示能力不同,例如:出現(xiàn)“鴛”字的文本有較大概率是以愛情為主題的;“田”“園”等字則對(duì)山水田園類文本區(qū)分度較高;“燭”字對(duì)愛情類、哲理類文本都有不錯(cuò)的表示度。將不同特征詞對(duì)不同類型文本的表示能力可視化,愛情類、山水田園類文本的表示能力可視化分別如圖4、圖5所示。
圖4???不同特征詞對(duì)愛情類文本的表示能力可視化
圖5???不同特征詞對(duì)山水田園類文本的表示能力可視化
圖6表示同時(shí)將400個(gè)特征詞對(duì)4個(gè)維度的信息進(jìn)行了可視化:愛情類為豎軸,山水田園類為橫軸,在坐標(biāo)軸上的投影值越大表示對(duì)該類型文本的表示能力越強(qiáng);圓圈的大小表示該特征詞對(duì)憂國(guó)憂民類古詩文本的表示能力,顏色深淺表示該特征詞對(duì)哲理類古詩文本的表示能力。
圖6???400個(gè)特征詞對(duì)4個(gè)類型文本的表示能力可視化總覽
兩種聚類算法都是根據(jù)每個(gè)特征項(xiàng)對(duì)不同類別文本表示能力的強(qiáng)弱,將特征項(xiàng)分為4類,再將聚類結(jié)果交給后續(xù)的分類器,使用加權(quán)最近鄰算法完成對(duì)文本的分類。
不同聚類算法的聚類結(jié)果是不同的,圖7、圖8分別為k-means算法聚類結(jié)果中的憂國(guó)憂民類、愛情類文本特征,圖9、圖10分別為譜聚類算法聚類結(jié)果中的哲理類、山水田園類文本特征。
圖7 ? k-means算法聚類結(jié)果:憂國(guó)憂民類文本特征
圖8 ? k-means算法聚類結(jié)果:愛情類文本特征
圖9 ??譜聚類算法聚類結(jié)果:哲理類文本特征
圖10???譜聚類算法聚類結(jié)果:山水田園類文本特征
從聚類算法得到的結(jié)果可以看出,不同類別的特征詞基本是符合常識(shí)的,但仍然有許多字是“模棱兩可”的。而且聚類一旦完成,其結(jié)果無法根據(jù)后續(xù)分類器的表現(xiàn)隨時(shí)進(jìn)行修改和調(diào)整,這是此類算法的弊病。而本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)則能夠消除類似的“斷層”現(xiàn)象,特征譜結(jié)構(gòu)隨時(shí)服務(wù)于分類器結(jié)構(gòu),并在訓(xùn)練的過程中不斷更新,結(jié)果自然更加理想。
將1 500篇古詩文作為訓(xùn)練集,將500篇古詩文作為測(cè)試集(每類125篇),分別使用譜聚類算法+加權(quán)最近鄰分類器、k-means算法+加權(quán)最近鄰分類器、普通的含有兩層隱藏層的反向傳播神經(jīng)網(wǎng)絡(luò)和本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)4種算法對(duì)4類古詩文本進(jìn)行分類測(cè)試,得到的結(jié)果見表1。
哲理類詩文相比其他類型更難分類,而且它們覆蓋的范圍本身也有交疊。例如,很多田園歸隱詩本身就有看破世事、論述自己的人生思考、抒發(fā)哲理的部分在內(nèi),因此哲理類古詩文的分類準(zhǔn)確率一般低于其他3種類型。
從表1可以看到,BP神經(jīng)網(wǎng)絡(luò)對(duì)古詩文本的分類準(zhǔn)確率明顯高于各種聚類算法+傳統(tǒng)分類器的組合,而本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)可以使分類準(zhǔn)確率上升到99%,在某些特定類別上甚至可以達(dá)到不出錯(cuò)的程度(當(dāng)然,這和本文測(cè)試集數(shù)量太少有關(guān),這也是未來改進(jìn)的方向)。
5 性能分析及應(yīng)用
本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)的性能優(yōu)勢(shì)在于它可以自適應(yīng)地選擇最有助于分類任務(wù)的特征詞。通過特征詞向量構(gòu)建的拉普拉斯層記錄不同特征詞之間的相互關(guān)系,而后邊的全連接網(wǎng)絡(luò)則是對(duì)這種特征詞之間相互關(guān)系的整合。該網(wǎng)絡(luò)結(jié)構(gòu)對(duì)不同輸入文本的文字組合,賦予的特征詞權(quán)重各不相同,特征詞將以該權(quán)重為基礎(chǔ),參與下一階段的運(yùn)算,最終得到該文本的主題分類結(jié)果。當(dāng)分類錯(cuò)誤時(shí),誤差會(huì)通過整體的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行反向傳播,并追溯到此前賦予特征詞的權(quán)重,而這些特征詞的權(quán)重以及網(wǎng)絡(luò)結(jié)構(gòu)中的其他參數(shù)則會(huì)通過梯度下降算法進(jìn)行更新,并參與下一個(gè)循環(huán)的計(jì)算。神經(jīng)網(wǎng)絡(luò)模型就是以此來完成對(duì)特征詞權(quán)重的學(xué)習(xí)的,該學(xué)習(xí)過程是一種“自適應(yīng)”的調(diào)整過程。
在完成大量的迭代計(jì)算之后,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)得到了充分的訓(xùn)練。訓(xùn)練完成的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)不同的輸入文本提取不同的特征詞,并為其分配不同的權(quán)重。以古詩文《孔雀東南飛》為例,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)根據(jù)不同文字的組合方式,對(duì)文中有助于主題分類的特征詞進(jìn)行提取,并為其分配了適當(dāng)?shù)臋?quán)重,該權(quán)重經(jīng)過后續(xù)網(wǎng)絡(luò)結(jié)構(gòu)的運(yùn)算即可得到最終的分類結(jié)果。按照文本中不同特征詞權(quán)重的數(shù)值,生成《孔雀東南飛》的專屬特征詞詞云圖,如圖11所示。特征詞在詞云圖中的大小與其被自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)賦予的權(quán)重成正比。
從圖11可以看出,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)為《孔雀東南飛》中的“姻”“緣”“情”“相”“望”等字賦予了較大的權(quán)重,這些特征詞與“愛情”的聯(lián)系確實(shí)較為密切,符合人們的日常認(rèn)知。然而同樣和“愛情”關(guān)系密切的“妻”“女”“君”“愁”“怨”“淚”“嫁”等字則未被賦予太大的權(quán)重,這說明自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)認(rèn)為這些字在文中的出現(xiàn)形式和組合方式對(duì)“愛情”這一主題的代表性不強(qiáng),或者這些字的出現(xiàn)方式與家國(guó)類、哲理類等其他類型的古詩文類似,因此只被賦予了中等大小的權(quán)重。而諸如“安”“山”“水”等字,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)認(rèn)為其與“愛情”并無明顯關(guān)系,因此對(duì)其賦予的權(quán)重極小,這也與人們的日常認(rèn)知相符。由此可見,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)確實(shí)可以自適應(yīng)地提取有助于分類的特征。
圖11???《孔雀東南飛》特征詞詞云圖
自適應(yīng)地提取特征可以避免在分類時(shí)局限于固定的特征詞,它可以根據(jù)文本中不同文字之間的組合關(guān)系進(jìn)行適當(dāng)?shù)恼{(diào)整,即使對(duì)于同一類型的古詩文,特征詞的選取也有很大的分別。本文在愛情類、哲理類、山水田園類3類古詩文中各選取了4篇,并根據(jù)自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)給出的特征詞權(quán)重分別繪制了詞云圖,如圖12所示。這12個(gè)詞云圖分別由3個(gè)類別的12首不同的古詩詞生成,從這12個(gè)詞云圖可以看出,對(duì)于不同的古詩詞文本來說,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)關(guān)注的特征詞也并不相同,即使對(duì)于同一類型的古詩文,自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)給出的特征詞權(quán)重也各不相同。除此之外,由于自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)提取特征的能力是在數(shù)據(jù)集中訓(xùn)練獲得的,因此隨著數(shù)據(jù)量和算力的增長(zhǎng),自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)對(duì)特征的提取能力以及對(duì)文本的分類能力也會(huì)顯著提升。
圖12???自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)對(duì)不同古詩文本提取特征詞所生成的詞云圖
目前,筆者已經(jīng)以自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ),與相關(guān)科技公司合作,開發(fā)了一款古詩文主題分類App,如圖13所示。當(dāng)用戶在文本框中輸入古詩文內(nèi)容后,下方會(huì)顯示該古詩文所屬不同類別的概率柱狀圖,同時(shí)會(huì)輸出一張由自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)給出的特征詞權(quán)重所生成的詞云圖作為分類依據(jù)。由此可見,該算法具有一定的創(chuàng)新性,并且在市場(chǎng)上具有廣闊的應(yīng)用前景。
圖13???基于自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)開發(fā)的古詩文主題分類App
6 結(jié)束語
本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)靈感來源于譜聚類算法,然而在完成網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)之后,筆者發(fā)現(xiàn)其結(jié)構(gòu)和卷積神經(jīng)網(wǎng)絡(luò)有些相似之處,例如,用卷積層、池化層處理圖像數(shù)據(jù)的初衷是將輸入的圖像數(shù)據(jù)降維,并提取合適的特征,該特征并非人工提取,而是根據(jù)所要完成的任務(wù)以及誤差情況自動(dòng)提取的;而自適應(yīng)特征譜層也是為了將輸入的表示向量降維,刪除其中不重要的特征,選取合適的特征,這種選取不受人為干預(yù),而是將訓(xùn)練過程中產(chǎn)生的誤差進(jìn)行反向傳播,自適應(yīng)地進(jìn)行調(diào)整。卷積神經(jīng)網(wǎng)絡(luò)非常適用于處理圖像類型的數(shù)據(jù),而本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)則非常適用于處理文本數(shù)據(jù)。因此,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)具有非常廣闊的應(yīng)用前景。
此外,使用本文提出的自適應(yīng)特征譜神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取以及分類得到的結(jié)果具有一定的可解釋性,且在實(shí)際應(yīng)用時(shí)響應(yīng)速度快、內(nèi)存占用小,因此非常適合用于輔助教育平臺(tái)的開發(fā),基于該算法開發(fā)的古詩文主題分類App受到了用戶的一致好評(píng)。用戶在使用該App時(shí),無疑也提供了海量的訓(xùn)練樣本,以此為基礎(chǔ),筆者可以繼續(xù)優(yōu)化該模型,達(dá)到更高的分類精度。以“更大的數(shù)據(jù)”驅(qū)動(dòng)“更好的深度學(xué)習(xí)模型”正是后期優(yōu)化的方向。
作者簡(jiǎn)介
王一峰(1995-),男,哈爾濱工業(yè)大學(xué)(深圳)理學(xué)院碩士生,主要研究方向?yàn)樽匀徽Z言處理、計(jì)算機(jī)視覺、智能控制、機(jī)器人運(yùn)動(dòng)、慣性制導(dǎo)以及機(jī)器學(xué)習(xí)的數(shù)學(xué)原理 。
孫麗茹(1994-),女,哈爾濱工業(yè)大學(xué)(深圳)理學(xué)院碩士生,主要研究方向?yàn)樽匀徽Z言處理、教育大數(shù)據(jù)和機(jī)器學(xué)習(xí)中的聚類算法 。
崔良樂(1978-),男,哈爾濱工業(yè)大學(xué)(深圳)理學(xué)院講師,主要研究方向?yàn)槲鞣矫缹W(xué)、中國(guó)近現(xiàn)代思想文化傳播、文化研究和與在線學(xué)習(xí)相關(guān)的教育大數(shù)據(jù) 。
趙毅(1977-),男,博士,哈爾濱工業(yè)大學(xué)(深圳)理學(xué)院教授、博士生導(dǎo)師,哈爾濱工業(yè)大學(xué)(深圳)應(yīng)用數(shù)學(xué)研究中心主任,主要研究方向?yàn)榉蔷€性時(shí)間序列分析、動(dòng)力系統(tǒng)、復(fù)雜網(wǎng)絡(luò)、生物數(shù)學(xué)和數(shù)據(jù)科學(xué) 。
往期文章回顧
《大數(shù)據(jù)》2020年第4期目次&摘要
專題導(dǎo)讀:大數(shù)據(jù)異構(gòu)并行系統(tǒng)
GPU事務(wù)性內(nèi)存技術(shù)研究
大規(guī)模異構(gòu)數(shù)據(jù)并行處理系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)與實(shí)踐
面向大數(shù)據(jù)異構(gòu)系統(tǒng)的神威并行存儲(chǔ)系統(tǒng)
面向異構(gòu)眾核超級(jí)計(jì)算機(jī)的大規(guī)模稀疏計(jì)算性能優(yōu)化研究
深度學(xué)習(xí)中的內(nèi)存管理問題研究綜述
新一代深度學(xué)習(xí)框架研究
大數(shù)據(jù)場(chǎng)景中語言虛擬機(jī)的應(yīng)用和挑戰(zhàn)
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉(zhuǎn)載、合作:010-81055537
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國(guó)工業(yè)和信息化部主管,人民郵電出版社主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中文科技核心期刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦中文科技期刊,并被評(píng)為2018年國(guó)家哲學(xué)社會(huì)科學(xué)文獻(xiàn)中心學(xué)術(shù)期刊數(shù)據(jù)庫“綜合性人文社會(huì)科學(xué)”學(xué)科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào),獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的适用于特殊类型自然语言分类的自适应特征谱神经网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文读懂汇编程序的多个分段的程序--详解
- 下一篇: 汇编中的嵌套循环