mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...
一、背景分析
隨著今日頭條的崛起,資訊類(lèi)app已經(jīng)成為各巨頭爭(zhēng)奪流量入口的又一主要陣地。除了百度和阿里文娛旗下UC瀏覽器分別推出了百度百家和UC頭條,騰訊也在發(fā)布天天快報(bào)后投資了趣頭條,而趣頭條也在18年9月赴美上市。這些資訊類(lèi)app有一個(gè)共同的特點(diǎn),他們都是基于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的資訊推薦類(lèi)產(chǎn)品,為用戶推薦其感興趣的信息。
通過(guò)百度指數(shù)搜索“今日頭條”、“百度百家”、“趣頭條”以及“UC頭條”四個(gè)關(guān)鍵字,我們可以發(fā)現(xiàn)今日頭條搜索指數(shù)和搜索趨勢(shì)均遠(yuǎn)高于其他幾款產(chǎn)品,說(shuō)明其產(chǎn)品熱度一直較高,受到了更多人的關(guān)注。
近一個(gè)月四款app搜索熱度2011年以來(lái)四款app索索熱度趨勢(shì)趣頭條近期的發(fā)展速度也很迅猛,尤其是9月15日前后,其熱度超過(guò)了今日頭條,可能是因?yàn)樯鲜行侣勔鹆舜蠹业年P(guān)注。相對(duì)而言,百度百家和UC頭條則一直不溫不火,熱度一直不高。
二、問(wèn)題定位
結(jié)合以上背景,本文主要對(duì)以下幾個(gè)問(wèn)題進(jìn)行探索。
不同app之間橫向?qū)Ρ?#xff1a;
以今日頭條為例,不同時(shí)段用戶熱度的縱向?qū)Ρ?#xff1a;
目的:分析不同app用戶瀏覽以及內(nèi)容創(chuàng)作者產(chǎn)出特點(diǎn),為用戶瀏覽資訊以及創(chuàng)作者發(fā)布資訊提供建議。
三、獲取數(shù)據(jù)
本文數(shù)據(jù)抓#取于“自媒咖”,抓#取方式是利用某數(shù)據(jù)抓#取工具在每晚十二點(diǎn)后開(kāi)始抓#取前兩天的數(shù)據(jù)。最終抓#取了四款app的文章相關(guān)信息,其資訊發(fā)布時(shí)間范圍在2018-10-14至2018-10-21日之間。
自媒咖本文數(shù)據(jù)分析所使用到的工具:
因?yàn)榭紤]到如果數(shù)據(jù)抓#取時(shí)間距離資訊發(fā)布時(shí)間太近時(shí),資訊的閱讀量等信息會(huì)和較早發(fā)布的資訊產(chǎn)生較明顯差異。因此為盡量避免這種因素的影響,我們選取數(shù)據(jù)抓#取時(shí)間與資訊發(fā)布時(shí)間相隔一天以上的數(shù)據(jù)進(jìn)行分析,例如在10月22日凌晨抓#取前兩日(20日和21日)的數(shù)據(jù),取20日的數(shù)據(jù)進(jìn)行分析。
四、數(shù)據(jù)描述
數(shù)據(jù)量:本文通過(guò)Mysql進(jìn)行數(shù)據(jù)預(yù)處理,最終篩選出122119條數(shù)據(jù),并利用Python進(jìn)行數(shù)據(jù)處理和分析。
字段釋義:
五、數(shù)據(jù)清洗
5.1 利用Mysql進(jìn)行數(shù)據(jù)前期處理
Mysql數(shù)據(jù)預(yù)處理過(guò)程中所建表5.1.1 先將抓#取的數(shù)據(jù)導(dǎo)入到Mysql
1.在Mysql中設(shè)計(jì)表結(jié)構(gòu)
2、將抓#取到的數(shù)據(jù)從Excel中導(dǎo)入數(shù)據(jù)庫(kù)
原始數(shù)據(jù)原數(shù)據(jù)分散在各個(gè)excel中將Excel數(shù)據(jù)導(dǎo)入已創(chuàng)建的數(shù)據(jù)庫(kù)表中創(chuàng)建“今日頭條”,“趣頭條”,“百度百家”,“UC頭條”的基礎(chǔ)數(shù)據(jù)表toutiao_base、qu_base、baidu_base、uc_base。
5.1.2 數(shù)據(jù)預(yù)處理
在base表的基礎(chǔ)上,將時(shí)間數(shù)據(jù)轉(zhuǎn)為時(shí)間類(lèi)型、提取資訊類(lèi)型等,并創(chuàng)建表存儲(chǔ)清洗后的數(shù)據(jù)。
#接下來(lái),依照創(chuàng)建toutiao_daily的方法,為“趣頭條”,“百度百家”,“UC頭條”創(chuàng)建數(shù)據(jù)表。
#各daily表的數(shù)據(jù)量5.1.3 利用時(shí)間間隔選取數(shù)據(jù),并整合數(shù)據(jù)
- 選取數(shù)據(jù)抓#取時(shí)間與資訊發(fā)布時(shí)間相隔一天以上的數(shù)據(jù)
因每日采集數(shù)據(jù)量有限,而趣頭條數(shù)據(jù)量較大,故只能抓#取采集時(shí)間前一天的部分?jǐn)?shù)據(jù)。所以我們僅利用其數(shù)據(jù)分析趣頭條資訊的類(lèi)型特點(diǎn),但在進(jìn)行app數(shù)據(jù)橫向?qū)Ρ葧r(shí)將剔除這部分?jǐn)?shù)據(jù)。
- 重復(fù)數(shù)據(jù)處理
- 將所有數(shù)據(jù)導(dǎo)入info_daily表中
5.1.4 將數(shù)據(jù)導(dǎo)出為csv文件
接下來(lái),利用Python進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行清洗和分析,請(qǐng)參考另外一篇文章。起名困難癥用戶:資訊類(lèi)app用戶熱度及資訊類(lèi)型分析?zhuanlan.zhihu.com總結(jié)
以上是生活随笔為你收集整理的mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python报表设计控件_使用Pytho
- 下一篇: python 标准差_标准差python