文本关键词提取算法
1.TF-IDF
2.基于語義的統(tǒng)計語言模型
文章關(guān)鍵詞提取基礎(chǔ)件能夠在全面把握文章的中心思想的基礎(chǔ)上,提取出若干個代表文章語義內(nèi)容的詞匯或短語,相關(guān)結(jié)果可用于精化閱讀、語義查詢和快速匹配等。
采用基于語義的統(tǒng)計語言模型,所處理的文檔不受行業(yè)領(lǐng)域限制,且能夠識別出最新出現(xiàn)的新詞語,所輸出的詞語可以配以權(quán)重。
3.TF-IWF文檔關(guān)鍵詞自動提取算法
針對現(xiàn)有TF-IWF的領(lǐng)域文檔關(guān)鍵詞快速提取算法.該算法使用簡單統(tǒng)計并考慮詞長、位置、詞性等啟發(fā)性知識計算詞權(quán)重,并通過文檔凈化、領(lǐng)域詞典 分詞等方法提高了關(guān)鍵詞提取的速度及準(zhǔn)確度.對523篇學(xué)生心理健康領(lǐng)域文檔的實驗結(jié)果表明,該算法提取的文檔關(guān)鍵詞質(zhì)量優(yōu)于TF-IDF方法,且能在 O(n)時間內(nèi)完成.
4.基于分離模型的中文關(guān)鍵詞提取算法研究
關(guān)鍵詞提取在自動文摘、信息檢索、文本分類、文本聚類等方面具有十分重要的作用。通常所說的關(guān)鍵詞實際上有相當(dāng)一部分是關(guān)鍵的短語和未登錄詞,而這部分關(guān) 鍵詞的抽取是十分困難的問題。該文提出將關(guān)鍵詞提取分為兩個問題進(jìn)行處理:關(guān)鍵單詞提取和關(guān)鍵詞串提取,設(shè)計了一種基于分離模型的中文關(guān)鍵詞提取算法。該 算法并針對關(guān)鍵單詞提取和關(guān)鍵詞串提取這兩個問題設(shè)計了不同的特征以提高抽取的準(zhǔn)確性。實驗表明,相對于傳統(tǒng)的關(guān)鍵詞提取算法,基于分離模型的中文關(guān)鍵詞 提取算法效果更好。
5.基于高維聚類技術(shù)的中文關(guān)鍵詞提取算法
關(guān)鍵詞提取是中文信息處理技術(shù)的熱點(diǎn)和難點(diǎn),基于統(tǒng)計信息的方法是其中一個重要分支。本文針對基于統(tǒng)計信息關(guān)鍵詞提取方法準(zhǔn)確率低的問題,提出基于高維聚 類技術(shù)的中文關(guān)鍵詞提取算法。算法通過依據(jù)小詞典的快速分詞、二次分詞、高維聚類及關(guān)鍵詞甄選四個步驟實現(xiàn)關(guān)鍵詞的提取。理論分析和實驗顯示,基于高維聚 類技術(shù)的中文關(guān)鍵詞提取方法具備更好的穩(wěn)定性、更高的效率及更準(zhǔn)確的結(jié)果。?
6.基于語義的中文文本關(guān)鍵詞提取(SKE)算法
為克服傳統(tǒng)關(guān)鍵詞提取算法局限于字面匹配、缺乏語義理解的缺點(diǎn),提出一種基于語義的中文文本關(guān)鍵詞提取(SKE)算法。將詞語語義特征融入關(guān)鍵詞提 取過程中,構(gòu)建詞語語義相似度網(wǎng)絡(luò)并利用居間度密度度量詞語語義關(guān)鍵度。實驗結(jié)果表明,與基于統(tǒng)計特征的關(guān)鍵詞提取算法相比,SKE算法提取的關(guān)鍵詞能體 現(xiàn)文檔的主題,更符合人們的感知邏輯,且算法性能較優(yōu)。
7.基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法研究
提出了一種基于樸素貝葉斯模型的中文關(guān)鍵詞提取算法。該算法首先通過訓(xùn)練過程獲得樸素貝葉斯模型中的各個參數(shù),然后以之為基礎(chǔ),在測試過程完成關(guān)鍵 詞提取。實驗表明,相對于傳統(tǒng)的if*idf方法,該算法可從小規(guī)模的文檔集中提取出更為準(zhǔn)確的關(guān)鍵詞,而且可靈活地增加表征詞語重要性的特征項,因而具 有更好的可擴(kuò)展性。
轉(zhuǎn)載于:https://www.cnblogs.com/a198720/p/3990666.html
總結(jié)
- 上一篇: 配置错误定义了重复的“system.we
- 下一篇: Hadoop集群_Eclipse开发环境