NLP:基于snownlp库对文本实现提取文本关键词和文本摘要
生活随笔
收集整理的這篇文章主要介紹了
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
NLP:基于snownlp庫對文本實現提取文本關鍵詞和文本摘要
?
?
?
目錄
輸出結果
1、測試文本
設計思路
核心代碼
?
?
?
?
?
輸出結果
1、測試文本
今天一大早,兩位男子在故宮抽煙對鏡頭炫耀的視頻在網絡上傳播,引發網友憤怒。有人感到后怕,600年的故宮真要這兩個人給點了,萬死莫贖。也有評論稱,把無知當成炫耀的資本,丟人! 視頻中兩位男子坐在故宮公共休息區的遮陽傘下,面對鏡頭問出:“誰敢在故宮抽煙?”語氣極其囂張,表情帶有挑釁意味。話音剛落,另外一位男子面向鏡頭吸了一口煙。而視頻中兩人也表示知道有故宮禁止吸煙的規定。 事實上,2013年5月18日是國際博物館日,故宮從這一天開始至今一直實行全面禁煙。根據規定,故宮博物院全體員工在院合作單位和個人不管在室內和室外,也不分開放區與工作區,一律禁止吸煙,對違反禁止吸煙規定的人員將進行嚴格處罰并通報全院。 此外,在2015年6月1日起北京全市也開始了《控制吸煙條例》,規定公共場所工作場所室內環境室外排隊等場合禁止吸煙,違者將最高被罰200元,全市統一設立舉報電話12320。 視頻在網絡上傳播開來,不少網友擔心故宮的安危,稱一旦發生火情,后果不堪設想,有網友表示,這樣的行為應該被旅游景區拉近黑名單,建議終身禁止進入任何景區和各種場館。
?
?
設計思路
后期更新……
?
?
?
核心代碼
class SnowNLP Found at: snownlp.__init__class SnowNLP(object):def __init__(self, doc):self.doc = docself.bm25 = bm25.BM25(doc)@propertydef words(self):return seg.seg(self.doc)@propertydef sentences(self):return normal.get_sentences(self.doc)@propertydef han(self):return normal.zh2hans(self.doc)@propertydef pinyin(self):return normal.get_pinyin(self.doc)@propertydef sentiments(self):return sentiment.classify(self.doc)@propertydef tags(self):words = self.wordstags = tag.tag(words)return zip(words, tags)@propertydef tf(self):return self.bm25.f@propertydef idf(self):return self.bm25.idfdef sim(self, doc):return self.bm25.simall(doc)def summary(self, limit=5):doc = []sents = self.sentencesfor sent in sents:words = seg.seg(sent)words = normal.filter_stop(words)doc.append(words)rank = textrank.TextRank(doc)rank.solve()ret = []for index in rank.top_index(limit):ret.append(sents[index])return retdef keywords(self, limit=5, merge=False):doc = []sents = self.sentencesfor sent in sents:words = seg.seg(sent)words = normal.filter_stop(words)doc.append(words)rank = textrank.KeywordTextRank(doc)rank.solve()ret = []for w in rank.top_index(limit):ret.append(w)if merge:wm = words_merge.SimpleMerge(self.doc, ret)return wm.merge()return ret?
?
?
?
?
總結
以上是生活随笔為你收集整理的NLP:基于snownlp库对文本实现提取文本关键词和文本摘要的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DL框架之TensorFlow:深度学习
- 下一篇: NLP:基于nltk和jieba库对文本