當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据离线阶段Day5之多彩缤纷数据源

發(fā)布時(shí)間：2023/12/18 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据离线阶段Day5之多彩缤纷数据源小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

典型的數(shù)據(jù)分析系統(tǒng)，要分析的數(shù)據(jù)種類其實(shí)是比較豐富的。依據(jù)來源可大體分為以下幾個(gè)部分：

圖：數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)來源

1．?業(yè)務(wù)系統(tǒng)數(shù)據(jù)

業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)是不可忽視的，比如電商網(wǎng)站，大量的訂單數(shù)據(jù)看似雜亂無章，實(shí)則蘊(yùn)含潛在的商業(yè)價(jià)值，可以從中分析進(jìn)而進(jìn)行商業(yè)推廣，產(chǎn)品推薦等。

另一角度來看，業(yè)務(wù)系統(tǒng)數(shù)據(jù)獲取成本低、方式容易，屬于公司內(nèi)部范疇。業(yè)務(wù)系統(tǒng)的數(shù)據(jù)一般保存在關(guān)系型數(shù)據(jù)庫當(dāng)中。獲取形式有：

接口調(diào)用：直接獲取業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)，但是要注意不能影響業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的性能，比如大量獲取數(shù)據(jù)增大數(shù)據(jù)庫讀數(shù)據(jù)壓力。

數(shù)據(jù)庫dump:非高峰時(shí)段，或者在數(shù)據(jù)庫從庫上dump出全部數(shù)據(jù)。一般企業(yè)中會(huì)定時(shí)進(jìn)行數(shù)據(jù)庫的備份、導(dǎo)出工作，那么就可以共享使用這些數(shù)據(jù)。

比如MySQL數(shù)據(jù)庫，使用mysqldump工具就可以進(jìn)行數(shù)據(jù)庫的導(dǎo)出。

mysqldump -uroot -pPassword [database name] [dump file]

mysqldump命令將數(shù)據(jù)庫中的數(shù)據(jù)備份成一個(gè)文本文件。表的結(jié)構(gòu)和表中的數(shù)據(jù)將存儲(chǔ)在生成的文本文件中。

2．?爬蟲數(shù)據(jù)

在進(jìn)行網(wǎng)站數(shù)據(jù)分析的時(shí)候，除了內(nèi)部數(shù)據(jù)之外，還有一部分?jǐn)?shù)據(jù)是我們不能夠忽視的。那就是所謂的外部數(shù)據(jù)。當(dāng)然這是相對(duì)公司網(wǎng)站來說的。擁有了外部數(shù)據(jù)可以更好的幫助我們進(jìn)行數(shù)據(jù)分析。

爬蟲（Web crawler），是指一種按照一定的規(guī)則，自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站，可以自動(dòng)采集所有其能夠訪問到的頁面內(nèi)容，以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。

電子商務(wù)行業(yè)最初的爬蟲需求來源于比價(jià)。這是某些電商網(wǎng)站的核心業(yè)務(wù)。大家如果買商品的時(shí)候，是一個(gè)價(jià)格敏感型用戶的話，很可能會(huì)使用比價(jià)功能。毫無懸念，會(huì)使用爬蟲技術(shù)來爬取所有相關(guān)電商的價(jià)格。

當(dāng)然，這并不意味著大家喜歡被爬取。于是需要通過技術(shù)手段來做反爬蟲。

總結(jié)

以上是生活随笔為你收集整理的大数据离线阶段Day5之多彩缤纷数据源的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： exe文件关联被更改的解决方法
下一篇： Yann Martell《少年 pi 的

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

大数据离线阶段Day5之多彩缤纷数据源

總結(jié)