Web数据挖掘小论文
1、目的意義
Web數據挖掘是利用數據挖掘技術從Web文檔和Web服務器中發(fā)現并提取人們感興趣的信息或知識的過程。涉及到Internet技術、人工智能、計算機語言學、信息學、統(tǒng)計學等多個領域。
Web包含了豐富和動態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數據挖掘提供了豐富的資源。然而,從以下的分析中可以看到,對Web進行有效的知識發(fā)現具有極大的挑戰(zhàn)性:Web挖掘對象多樣性;Web頁面的復雜性;Web作為信息源的極強動態(tài)性;Web用戶群體的廣泛性;Web頁面的有用價值卻極低。隨著大數據時代的到來,Web數據挖掘在大數據中的重要地位日益凸顯。
2、現狀
Web數據挖掘是一個更具挑戰(zhàn)性的課題,它實現對Web存取模式、Web結構規(guī)則和動態(tài)的Web內容的查找。一般地Web挖掘可分為3類:Web內容挖掘、Web結構挖掘和Web使用記錄的挖掘。Web數據挖掘通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。大數據技術與傳統(tǒng)Web數據挖掘相比,整合了大規(guī)模并行處理數據庫、數據挖掘網絡、分布式文件系統(tǒng)、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統(tǒng)。
3、創(chuàng)新設想與方案
Web數據挖掘的對象是大量、異質、分布的Web文檔.以Web 作為中間件對數據庫進行挖掘,以及對Web服務器上的日志、用戶信息等數據所開展的挖掘工作,仍屬于傳統(tǒng)的數據挖掘的范疇.其次, Web 在邏輯上是一個由文檔節(jié)點和超鏈構成的圖,因此Web挖掘所得到的模式可能是關于Web內容的,也可能是關于 Web 結構的。此外,由于 Web 文檔本身是半結構化或無結構的, 且缺乏機器可理解的語義,而數據挖掘的對象局限于數據庫中的結構化數據,并利用關系表格等存儲結構來發(fā)現知識,因此有些數據挖掘技術并不適用于 Web 挖掘,即使可用也需要建立在對Web文檔進行預處理的基礎之上。
?????? 首先,確定Web數據挖掘的任務,針對于Internet網絡上海量的數據,確定較為清晰的挖掘任務才能提高數據的準確率,挖掘任務包括確定挖掘的主題領域、挖掘的限定范圍、挖掘的內容大小、挖掘的精度要求等等。然后利用網絡爬蟲或者主題搜索引擎從網絡上抓取信息數據,抓取過程中需要利用互聯網云平臺和分布式數據庫,并行采集數據。然后對抓取的數據,如Web頁面、文檔以及圖片等等,將這些數據進行清理,建立索引,去噪,提取有用的信息,即對數據進行清洗或者整理。然后對得到的數據進行多維分析、統(tǒng)計分析、挖掘分析等,最后把分析得到的數據進行可視化。
?????? 可以將Web數據挖掘進行以上的一些改進,(1)由于從互聯網上抓取數據或者從互聯網的用戶日志中分析數據時,數據量很大,如果針對所有的數據都進行采集,開銷非常大,可以將抓取范圍限定,針對于基于統(tǒng)計的Web數據挖掘,取可用解不會影響數據的分析統(tǒng)計,不需要取最優(yōu)解而花費大量的開銷。(2)由于互聯網上數據具有高度的重復性,對數據進行清洗時,會占用很大開銷,因此盡量從不交叉的搜索域中采集數據。(3)建立學習規(guī)則以提高爬取的精準度,并減少冗余。將挖掘的內容進行定期的抽樣采集,記錄采集結果,多次對比,建立學習規(guī)則,如果在發(fā)現與現有獲得的學習規(guī)則差異很大或者完全不相關聯時,可以增加抓取規(guī)則,以縮小抓取的范圍。(4)充分利用url鏈接,page-rank算法基于url鏈接,url鏈接對于Web數據挖掘至關重要,url鏈接中也包括重要的數據內容,合理的識別url鏈接將提高Web數據挖掘的效率。
4、應用背景
Web數據挖掘的應用非常廣泛,它已經廣泛應用于金融業(yè)、遠程通信業(yè)、制造業(yè)、醫(yī)療服務以及體育事業(yè)中,對它的應用研究正在成為一個熱點。Web挖掘的應用前景主要表現在:電子商務、電子政務、網站設計以及搜索引擎。在大數據時代,Web數據挖掘的重要性更加凸顯,廣泛應用于商業(yè)數據分析、輿情分析、趨勢分析、病情監(jiān)控、搜索引擎等等。
總結
以上是生活随笔為你收集整理的Web数据挖掘小论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第七十六期:3000台服务器不宕机,微博
- 下一篇: java面试题25 在程序代码中写的注释