當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文献挖掘：SATI文献题录信息统计分析工具初试

發(fā)布時(shí)間：2023/12/9 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了文献挖掘：SATI文献题录信息统计分析工具初试小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近幫王總做了一個(gè)文獻(xiàn)關(guān)鍵詞信息挖掘的簡(jiǎn)單工作，利用關(guān)鍵詞的在不同文章中的共現(xiàn)信息，對(duì)關(guān)鍵詞進(jìn)行相似度的比較。主要使用到了SATI這個(gè)工具，當(dāng)然為了把最后所有的圖弄出來(lái)，還用到了Ucinet6，NetDraw還有spss。主要參考

劉啟元, 葉鷹. 文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書情報(bào)學(xué)為例[J]. 信息資源管理學(xué)報(bào),
2012(1):50-58.

1.使用SATI抽取關(guān)鍵詞共現(xiàn)信息

這一次做的是國(guó)內(nèi)校園欺凌文獻(xiàn)關(guān)鍵詞信息的挖掘，拿到手的數(shù)據(jù)已經(jīng)是處理好的XML數(shù)據(jù)（如何從各大平臺(tái)獲得XML形式的數(shù)據(jù)不在本文討論范圍之內(nèi)），用SATI直接打開(kāi)，選擇你需要的題錄信息，筆者這里需要的是關(guān)鍵詞頻率，然后依次構(gòu)建了三類共現(xiàn)矩陣：相似度，相異度和邊數(shù)。關(guān)鍵詞的個(gè)數(shù)設(shè)定為30。點(diǎn)擊矩陣按鈕等待生成然后保存Excel文件即可。

2.使用Ucinet進(jìn)行層次聚類分析

層次聚類分析的原理很簡(jiǎn)單，其實(shí)用R語(yǔ)言或者Python寫也比較方便，不過(guò)為了使用NetDraw畫圖，需要Uncinet生成的network文件，這里就用Ucinet來(lái)聚類了。

Ucinet可以導(dǎo)入Excel文件作為矩陣，這里使用相似度矩陣

點(diǎn)擊確定后會(huì)在輸出文件夾輸出Ucinet數(shù)據(jù)文件，分別是##h文件和##d文件。
用Ucinet打開(kāi)對(duì)應(yīng)的##h文件，然后就可以再工具菜單中選擇聚類分析了。

3.使用NetDraw繪制共現(xiàn)知識(shí)網(wǎng)絡(luò)圖譜

直接使用NetDraw打開(kāi)##h文件即可。

之后可以進(jìn)行各種編輯。

4.使用Spss進(jìn)行多維尺度分析

講道理MDS之前在統(tǒng)計(jì)機(jī)器學(xué)習(xí)的課上接觸過(guò)，但沒(méi)有自主實(shí)現(xiàn)，這次用Spss相當(dāng)于看看效果。直接用Spss打開(kāi)Excel文件（相異度矩陣），然后選擇多維尺度分析。

將所有關(guān)鍵詞作為構(gòu)建新空間的變量（這個(gè)沒(méi)有全選真的傷），選好參數(shù)后就可以輸出了。

5.計(jì)算關(guān)鍵詞類的向心度和密度值

根據(jù)層次聚類圖和多維尺度分析圖，可以將關(guān)鍵詞大致分為有意義的類別。采用總和均值法計(jì)算類的向心度和密度值，即聚類向心度為類內(nèi)所有結(jié)點(diǎn)與其他類團(tuán)內(nèi)所有結(jié)點(diǎn)的邊數(shù)總和的均值，聚類密度為類內(nèi)所有結(jié)點(diǎn)之間邊數(shù)總和的均值。類別分好過(guò)后，用一個(gè)Python程序讀取存儲(chǔ)邊數(shù)的共現(xiàn)矩陣然后進(jìn)行計(jì)算就可以輕松搞定了。

總結(jié)

以上是生活随笔為你收集整理的文献挖掘：SATI文献题录信息统计分析工具初试的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： vue-cli3引入第三方的js依赖包并
下一篇：微软IE 9 Beta全程体验图集