當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据:互联网大规模数据挖掘与分布式处理

發布時間：2023/12/19 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据:互联网大规模数据挖掘与分布式处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《大數據:互聯網大規模數據挖掘與分布式處理》
基本信息
原書名：Mining of Massive Datasets
作者： (美)拉賈拉曼(Rajaraman,A.) (美)厄爾曼(Ullman,J.D.) [作譯者介紹]
譯者：王斌
叢書名：圖靈程序設計叢書
出版社：人民郵電出版社
ISBN：9787115291318
上架時間：2012-9-23
出版日期：2012 年9月
開本：16開
頁碼：1
版次：1-1
所屬分類：計算機
內容簡介

更多關于》》》《大數據:互聯網大規模數據挖掘與分布式處理》
書籍
計算機書籍
　　《大數據:互聯網大規模數據挖掘與分布式處理》由斯坦福大學的“web 挖掘”課程的內容總結而成，主要關注極大規模數據的挖掘。主要內容包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。其中相關章節有對應的習題，以鞏固所講解的內容。讀者更可以從網上獲取相關拓展材料。
　　《大數據:互聯網大規模數據挖掘與分布式處理》適合本科生、研究生及對數據挖掘感興趣的讀者閱讀。
目錄
《大數據:互聯網大規模數據挖掘與分布式處理》
第1章　數據挖掘基本概念　　1
1.1　數據挖掘的定義　　1
1.1.1　統計建模　　1
1.1.2　機器學習　　1
1.1.3　建模的計算方法　　2
1.1.4　數據匯總　　2
1.1.5　特征抽取　　3
1.2　數據挖掘的統計限制　　4
1.2.1　整體情報預警　　4
1.2.2　邦弗朗尼原理　　4
1.2.3　邦弗朗尼原理的一個例子　　5
1.2.4　習題　　6
1.3　相關知識　　6
1.3.1　詞語在文檔中的重要性　　6
1.3.2　哈希函數　　7
1.3.3　索引　　8
1.3.4　二級存儲器　　10
1.3.5　自然對數的底e　　10
1.3.6　冪定律　　11
1.3.7　習題　　12
1.4　本書概要　　13
1.5　小結　　14
1.6　參考文獻　　14
第2章　大規模文件系統及map-reduce　　16
2.1　分布式文件系統　　16
2.1.1　計算節點的物理結構　　17
2.1.2　大規模文件系統的結構　　18
2.2　 map-reduce　　18
2.2.1　 map任務　　19
2.2.2　分組和聚合　　20
2.2.3　 reduce任務　　20
2.2.4　組合器　　21
2.2.5　 map-reduce的執行細節　　21
2.2.6　節點失效的處理　　22
2.3　使用map-reduce的算法　　22
2.3.1　基于map-reduce的矩陣—向量乘法實現　　23
2.3.2　向量v無法放入內存時的處理　　23
2.3.3　關系代數運算　　24
2.3.4　基于map-reduce的選擇運算　　26
2.3.5　基于map-reduce的投影運算　　26
2.3.6　基于map-reduce的并、交和差運算　　27
2.3.7　基于map-reduce的自然連接運算　　27
2.3.8　一般性的連接算法　　28
2.3.9　基于map-reduce的分組和聚合運算　　28
2.3.10　矩陣乘法　　29
2.3.11　基于單步map-reduce的矩陣乘法　　29
2.3.12　習題　　30
2.4　 map-reduce的擴展　　31
2.4.1　工作流系統　　31
2.4.2　 map-reduce的遞歸擴展版本　　32
2.4.3　 pregel系統　　34
2.4.4　習題　　35
2.5　集群計算算法的效率問題　　35
2.5.1　集群計算的通信開銷模型　　35
2.5.2　實耗通信開銷　　36
2.5.3　多路連接　　37
2.5.4　習題　　40
2.6　小結　　40
2.7　參考文獻　　42
……
第6章　頻繁項集　　146
6.1　購物籃模型　　146
6.1.1　頻繁項集的定義　　146
6.1.2　頻繁項集的應用　　148
6.1.3　關聯規則　　149
6.1.4　高可信度關聯規則的發現　　150
6.1.5　習題　　151
6.2　購物籃及a-priori算法　　152
6.2.1　購物籃數據的表示　　152
6.2.2　項集計數中的內存使用　　153
6.2.3　項集的單調性　　154
6.2.4　二元組計數　　155
6.2.5　 a-priori算法　　155
6.2.6　所有頻繁項集上的a-priori算法　　157
6.2.7　習題　　158
6.3　更大數據集在內存中的處理　　159
6.3.1　 pcy算法　　160
6.3.2　多階段算法　　161
6.3.3　多哈希算法　　163
6.3.4　習題　　164
6.4　有限掃描算法　　166
6.4.1　簡單的隨機化算法　　166
6.4.2　抽樣算法中的錯誤規避　　167
6.4.3　 son算法　　168
6.4.4　 son算法和map-reduce　　168
6.4.5　 toivonen算法　　169
6.4.6　 toivonen算法的有效性分析　　170
6.4.7　習題　　170
6.5　流中的頻繁項計數　　171
6.5.1　流的抽樣方法　　171
6.5.2　衰減窗口中的頻繁項集　　172
6.5.3　混合方法　　172
6.5.4　習題　　173
6.6　小結　　173
6.7　參考文獻　　175
第7章　聚類　　176
7.1　聚類技術介紹　　176
7.1.1　點、空間和距離　　176
7.1.2　聚類策略　　177
7.1.3　維數災難　　178
7.1.4　習題　　179
7.2　層次聚類　　179
7.2.1　歐氏空間下的層次聚類　　180
7.2.2　層次聚類算法的效率　　183
7.2.3　控制層次聚類的其他規則　　183
7.2.4　非歐空間下的層次聚類　　185
7.2.5　習題　　186
7.3　 k-均值算法　　187
7.3.1　 k-均值算法基本知識　　187
7.3.2　 k-均值算法的簇初始化　　187
7.3.3　選擇k的正確值　　188
7.3.4　 bfr算法　　189
7.3.5　 bfr算法中的數據處理　　191
7.3.6　習題　　192
7.4　 cure算法　　193
7.4.1　 cure算法的初始化　　194
7.4.2　 cure算法的完成　　195
7.4.3　習題　　195
7.5　非歐空間下的聚類　　196
7.5.1　 grgpf算法中的簇表示　　196
7.5.2　簇表示樹的初始化　　196
7.5.3　 grgpf算法中的點加入　　197
7.5.4　簇的分裂及合并　　198
7.5.5　習題　　199
7.6　流聚類及并行化　　199
7.6.1　流計算模型　　199
7.6.2　一個流聚類算法　　200
7.6.3　桶的初始化　　200
7.6.4　桶合并　　200
7.6.5　查詢應答　　202
7.6.6　并行環境下的聚類　　202
7.6.7　習題　　203
7.7　小結　　203
7.8　參考文獻　　205
第8章　 web廣告　　207
8.1　在線廣告相關問題　　207
8.1.1　廣告機會　　207
8.1.2　直投廣告　　208
8.1.3　展示廣告的相關問題　　208
8.2　在線算法　　209
8.2.1　在線和離線算法　　209
8.2.2　貪心算法　　210
8.2.3　競爭率　　211
8.2.4　習題　　211
8.3　廣告匹配問題　　212
8.3.1　匹配及完美匹配　　212
8.3.2　最大匹配貪心算法　　213
8.3.3　貪心匹配算法的競爭率　　213
8.3.4　習題　　214
8.4　 adwords問題　　214
8.4.1　搜索廣告的歷史　　215
8.4.2　 adwords問題的定義　　215
8.4.3　 adwords問題的貪心方法　　216
8.4.4　 balance算法　　217
8.4.5　 balance算法競爭率的一個下界　　217
8.4.6　多投標者的balance算法　　219
8.4.7　一般性的balance算法　　220
8.4.8　 adwords問題的最后論述　　221
8.4.9　習題　　221
8.5　 adwords的實現　　221
8.5.1　投標和搜索查詢的匹配　　222
8.5.2　更復雜的匹配問題　　222
8.5.3　文檔和投標之間的匹配算法　　223
8.6　小結　　224
8.7　參考文獻　　226
第9章　推薦系統　　227
9.1　一個推薦系統的模型　　227
9.1.1　效用矩陣　　227
9.1.2　長尾現象　　228
9.1.3　推薦系統的應用　　230
9.1.4　效用矩陣的填充　　230
9.2　基于內容的推薦　　231
9.2.1　項模型　　231
9.2.2　文檔的特征發現　　231
9.2.3　基于tag的項特征獲取　　232
9.2.4　項模型的表示　　233
9.2.5　用戶模型　　234
9.2.6　基于內容的項推薦　　235
9.2.7　分類算法　　235
9.2.8　習題　　237
9.3　協同過濾　　238
9.3.1　相似度計算　　238
9.3.2　相似度對偶性　　241
9.3.3　用戶聚類和項聚類　　242
9.3.4　習題　　243
9.4　降維處理　　243
9.4.1　 uv分解　　244
9.4.2　 rmse　　244
9.4.3　 uv分解的增量式計算　　245
9.4.4　對任一元素的優化　　247
9.4.5　一個完整uv分解算法的構建　　248
9.4.6　習題　　250
9.5　 netflix競賽　　250
9.6　小結　　251
9.7　參考文獻　　253
索引　　254

本圖書信息來源于：中國互動出版網

總結

以上是生活随笔為你收集整理的大数据:互联网大规模数据挖掘与分布式处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： kali中安转python3_Kali环
下一篇： pyecharts geo_pyecha

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

大数据:互联网大规模数据挖掘与分布式处理

總結