文献挖掘:SATI文献题录信息统计分析工具初试
最近幫王總做了一個(gè)文獻(xiàn)關(guān)鍵詞信息挖掘的簡(jiǎn)單工作,利用關(guān)鍵詞的在不同文章中的共現(xiàn)信息,對(duì)關(guān)鍵詞進(jìn)行相似度的比較。主要使用到了SATI這個(gè)工具,當(dāng)然為了把最后所有的圖弄出來(lái),還用到了Ucinet6,NetDraw還有spss。主要參考
劉啟元, 葉鷹. 文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書情報(bào)學(xué)為例[J]. 信息資源管理學(xué)報(bào),
2012(1):50-58.
1.使用SATI抽取關(guān)鍵詞共現(xiàn)信息
這一次做的是國(guó)內(nèi)校園欺凌文獻(xiàn)關(guān)鍵詞信息的挖掘,拿到手的數(shù)據(jù)已經(jīng)是處理好的XML數(shù)據(jù)(如何從各大平臺(tái)獲得XML形式的數(shù)據(jù)不在本文討論范圍之內(nèi)),用SATI直接打開(kāi),選擇你需要的題錄信息,筆者這里需要的是關(guān)鍵詞頻率,然后依次構(gòu)建了三類共現(xiàn)矩陣:相似度,相異度和邊數(shù)。關(guān)鍵詞的個(gè)數(shù)設(shè)定為30。點(diǎn)擊矩陣按鈕等待生成然后保存Excel文件即可。
2.使用Ucinet進(jìn)行層次聚類分析
層次聚類分析的原理很簡(jiǎn)單,其實(shí)用R語(yǔ)言或者Python寫也比較方便,不過(guò)為了使用NetDraw畫圖,需要Uncinet生成的network文件,這里就用Ucinet來(lái)聚類了。
Ucinet可以導(dǎo)入Excel文件作為矩陣,這里使用相似度矩陣
點(diǎn)擊確定后會(huì)在輸出文件夾輸出Ucinet數(shù)據(jù)文件,分別是##h文件和##d文件。
用Ucinet打開(kāi)對(duì)應(yīng)的##h文件,然后就可以再工具菜單中選擇聚類分析了。
3.使用NetDraw繪制共現(xiàn)知識(shí)網(wǎng)絡(luò)圖譜
直接使用NetDraw打開(kāi)##h文件即可。
之后可以進(jìn)行各種編輯。
4.使用Spss進(jìn)行多維尺度分析
講道理MDS之前在統(tǒng)計(jì)機(jī)器學(xué)習(xí)的課上接觸過(guò),但沒(méi)有自主實(shí)現(xiàn),這次用Spss相當(dāng)于看看效果。直接用Spss打開(kāi)Excel文件(相異度矩陣),然后選擇多維尺度分析。
將所有關(guān)鍵詞作為構(gòu)建新空間的變量(這個(gè)沒(méi)有全選真的傷),選好參數(shù)后就可以輸出了。
5.計(jì)算關(guān)鍵詞類的向心度和密度值
根據(jù)層次聚類圖和多維尺度分析圖,可以將關(guān)鍵詞大致分為有意義的類別。采用總和均值法計(jì)算類的向心度和密度值, 即聚類向心度為類內(nèi)所有結(jié)點(diǎn)與其他類團(tuán)內(nèi)所有結(jié)點(diǎn)的邊數(shù)總和的均值,聚類密度為類內(nèi)所有結(jié)點(diǎn)之間邊數(shù)總和的均值。類別分好過(guò)后,用一個(gè)Python程序讀取存儲(chǔ)邊數(shù)的共現(xiàn)矩陣然后進(jìn)行計(jì)算就可以輕松搞定了。
總結(jié)
以上是生活随笔為你收集整理的文献挖掘:SATI文献题录信息统计分析工具初试的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: vue-cli3引入第三方的js依赖包并
- 下一篇: 微软IE 9 Beta全程体验图集