當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Web数据挖掘小论文

發(fā)布時間：2023/12/10 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了 Web数据挖掘小论文小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、目的意義

Web數據挖掘是利用數據挖掘技術從Web文檔和Web服務器中發(fā)現并提取人們感興趣的信息或知識的過程。涉及到Internet技術、人工智能、計算機語言學、信息學、統(tǒng)計學等多個領域。

Web包含了豐富和動態(tài)的超鏈接信息，以及Web頁面的訪問和使用信息，這為數據挖掘提供了豐富的資源。然而，從以下的分析中可以看到，對Web進行有效的知識發(fā)現具有極大的挑戰(zhàn)性：Web挖掘對象多樣性；Web頁面的復雜性；Web作為信息源的極強動態(tài)性；Web用戶群體的廣泛性；Web頁面的有用價值卻極低。隨著大數據時代的到來，Web數據挖掘在大數據中的重要地位日益凸顯。

2、現狀

Web數據挖掘是一個更具挑戰(zhàn)性的課題，它實現對Web存取模式、Web結構規(guī)則和動態(tài)的Web內容的查找。一般地Web挖掘可分為3類：Web內容挖掘、Web結構挖掘和Web使用記錄的挖掘。Web數據挖掘通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)（依靠過去的經驗法則）和模式識別等諸多方法來實現上述目標。大數據技術與傳統(tǒng)Web數據挖掘相比，整合了大規(guī)模并行處理數據庫、數據挖掘網絡、分布式文件系統(tǒng)、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統(tǒng)。

3、創(chuàng)新設想與方案

Web數據挖掘的對象是大量、異質、分布的Web文檔.以Web 作為中間件對數據庫進行挖掘,以及對Web服務器上的日志、用戶信息等數據所開展的挖掘工作，仍屬于傳統(tǒng)的數據挖掘的范疇.其次, Web 在邏輯上是一個由文檔節(jié)點和超鏈構成的圖，因此Web挖掘所得到的模式可能是關于Web內容的，也可能是關于 Web 結構的。此外，由于 Web 文檔本身是半結構化或無結構的, 且缺乏機器可理解的語義，而數據挖掘的對象局限于數據庫中的結構化數據，并利用關系表格等存儲結構來發(fā)現知識，因此有些數據挖掘技術并不適用于 Web 挖掘，即使可用也需要建立在對Web文檔進行預處理的基礎之上。

?????? 首先，確定Web數據挖掘的任務，針對于Internet網絡上海量的數據，確定較為清晰的挖掘任務才能提高數據的準確率，挖掘任務包括確定挖掘的主題領域、挖掘的限定范圍、挖掘的內容大小、挖掘的精度要求等等。然后利用網絡爬蟲或者主題搜索引擎從網絡上抓取信息數據，抓取過程中需要利用互聯網云平臺和分布式數據庫，并行采集數據。然后對抓取的數據，如Web頁面、文檔以及圖片等等，將這些數據進行清理，建立索引，去噪，提取有用的信息，即對數據進行清洗或者整理。然后對得到的數據進行多維分析、統(tǒng)計分析、挖掘分析等，最后把分析得到的數據進行可視化。

?????? 可以將Web數據挖掘進行以上的一些改進，（1）由于從互聯網上抓取數據或者從互聯網的用戶日志中分析數據時，數據量很大，如果針對所有的數據都進行采集，開銷非常大，可以將抓取范圍限定，針對于基于統(tǒng)計的Web數據挖掘，取可用解不會影響數據的分析統(tǒng)計，不需要取最優(yōu)解而花費大量的開銷。（2）由于互聯網上數據具有高度的重復性，對數據進行清洗時，會占用很大開銷，因此盡量從不交叉的搜索域中采集數據。（3）建立學習規(guī)則以提高爬取的精準度，并減少冗余。將挖掘的內容進行定期的抽樣采集，記錄采集結果，多次對比，建立學習規(guī)則，如果在發(fā)現與現有獲得的學習規(guī)則差異很大或者完全不相關聯時，可以增加抓取規(guī)則，以縮小抓取的范圍。（4）充分利用url鏈接，page-rank算法基于url鏈接，url鏈接對于Web數據挖掘至關重要，url鏈接中也包括重要的數據內容，合理的識別url鏈接將提高Web數據挖掘的效率。

4、應用背景

Web數據挖掘的應用非常廣泛，它已經廣泛應用于金融業(yè)、遠程通信業(yè)、制造業(yè)、醫(yī)療服務以及體育事業(yè)中，對它的應用研究正在成為一個熱點。Web挖掘的應用前景主要表現在：電子商務、電子政務、網站設計以及搜索引擎。在大數據時代，Web數據挖掘的重要性更加凸顯，廣泛應用于商業(yè)數據分析、輿情分析、趨勢分析、病情監(jiān)控、搜索引擎等等。

總結

以上是生活随笔為你收集整理的Web数据挖掘小论文的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：第七十六期：3000台服务器不宕机，微博
下一篇： java面试题25 在程序代码中写的注释

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

Web数据挖掘小论文

總結