计算机论文北大核心,北大计算机(毕业论文).doc
北大計算機(jī)(畢業(yè)論文)
PAGE
PAGE 31
本科學(xué)位論文
題目: 一種動態(tài)文本關(guān)聯(lián)模型的設(shè)計與實現(xiàn)
The Design and Implement of Dynamic Text-
Association Model
姓 名: ***
學(xué) 號: *******
院 系: 信息科學(xué)技術(shù)學(xué)院
專 業(yè): 計算機(jī)科學(xué)與技術(shù)
指導(dǎo)教師: ******
北京大學(xué)本科畢業(yè)論文導(dǎo)師評閱表
學(xué) 號
學(xué)生姓名
論文成績
學(xué)院(系)
信息科學(xué)技術(shù)學(xué)院
專 業(yè)
計算機(jī)科學(xué)與技術(shù)
導(dǎo)師姓名
導(dǎo)師單位
職 稱
論文題目
一種動態(tài)文本關(guān)聯(lián)模型的設(shè)計與實現(xiàn)
The Design and Implement of Dynamic Text-association Model
導(dǎo)師評語
(包含對論文的性質(zhì)、難度、分量、綜合訓(xùn)練等是否符合培養(yǎng)目標(biāo)的目的等評價)
導(dǎo)師簽名:
年 月 日
版權(quán)聲明
任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制,抄錄,拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)益之問題,將可能承擔(dān)法律責(zé)任。
摘 要
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們越來越多地面臨著信息爆炸的問題。過多冗余的信息讓人們很難在海量的數(shù)據(jù)庫中挖掘出真正有意義的信息。此外,由于金融市場具有時效性,過期的信息非但沒有價值,反而會影響正常的數(shù)據(jù)挖掘操作。因此,為了保證和提高金融數(shù)據(jù)挖掘的質(zhì)量,有必要對海量的文本進(jìn)行動態(tài)的關(guān)聯(lián)操作。
本文在深入學(xué)習(xí)了關(guān)于文本操作的背景知識和應(yīng)用工具后,分3部分完成動態(tài)文本關(guān)聯(lián)的操作。首先,利用網(wǎng)絡(luò)爬蟲得到文本庫,然后就文本庫中文章進(jìn)行分詞處理,并在這一步驟中完成對文本的時間標(biāo)記;其后,為更新的文本庫建立索引庫,利用倒排索引將文章按關(guān)鍵詞列表索引起來;然后,利用改進(jìn)的Tf*Idf算法Tf*ENTROPY算法求出單篇文章的關(guān)鍵詞,再根據(jù)關(guān)鍵詞集合之間的交集判定文章與文章之間的關(guān)聯(lián)。以上步驟都建立在一個時間軸上進(jìn)行,讓不同時刻的文本單獨(dú)隔離開。
經(jīng)過實驗顯示,這種動態(tài)文本關(guān)聯(lián)模型保證了信息的時效性,會將新鮮的信息反饋給用戶;并且保證了結(jié)果的正確性,得到了良好的測試結(jié)果。
關(guān)鍵詞: 動態(tài) 文本關(guān)聯(lián) 倒排索引 Tf*ENTROPY
Abstract
With the rapid development of Internet, people become to face more and more information blooming problem. Because of redundant information, it is quite difficult to mine the valuable information in huge database. In addition, since financial market is influenced a lot by time, overdue information is not only useless, but also will badly affect the mining operation. So in order to enhance the quality of date-mining, it is necessary to conduct certain research on the topic of dynamic text-association.
In this passage, I present my design and realization of dynamic text-association model after learning relevant background knowledge and application tools. I divided the whole operation into 3 steps. First of all, I used web-reptile to get the information from internet, then divided the whole passages into individual words, and signed the passages with time ID;S
總結(jié)
以上是生活随笔為你收集整理的计算机论文北大核心,北大计算机(毕业论文).doc的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win8电脑设置怎么打开 打开Win8电
- 下一篇: 计算机设计大赛海洋世界,全国大学生海洋文