mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...
一、背景分析
隨著今日頭條的崛起,資訊類app已經成為各巨頭爭奪流量入口的又一主要陣地。除了百度和阿里文娛旗下UC瀏覽器分別推出了百度百家和UC頭條,騰訊也在發布天天快報后投資了趣頭條,而趣頭條也在18年9月赴美上市。這些資訊類app有一個共同的特點,他們都是基于機器學習和數據挖掘的資訊推薦類產品,為用戶推薦其感興趣的信息。
通過百度指數搜索“今日頭條”、“百度百家”、“趣頭條”以及“UC頭條”四個關鍵字,我們可以發現今日頭條搜索指數和搜索趨勢均遠高于其他幾款產品,說明其產品熱度一直較高,受到了更多人的關注。
近一個月四款app搜索熱度2011年以來四款app索索熱度趨勢趣頭條近期的發展速度也很迅猛,尤其是9月15日前后,其熱度超過了今日頭條,可能是因為上市新聞引起了大家的關注。相對而言,百度百家和UC頭條則一直不溫不火,熱度一直不高。
二、問題定位
結合以上背景,本文主要對以下幾個問題進行探索。
不同app之間橫向對比:
以今日頭條為例,不同時段用戶熱度的縱向對比:
目的:分析不同app用戶瀏覽以及內容創作者產出特點,為用戶瀏覽資訊以及創作者發布資訊提供建議。
三、獲取數據
本文數據抓#取于“自媒咖”,抓#取方式是利用某數據抓#取工具在每晚十二點后開始抓#取前兩天的數據。最終抓#取了四款app的文章相關信息,其資訊發布時間范圍在2018-10-14至2018-10-21日之間。
自媒咖本文數據分析所使用到的工具:
因為考慮到如果數據抓#取時間距離資訊發布時間太近時,資訊的閱讀量等信息會和較早發布的資訊產生較明顯差異。因此為盡量避免這種因素的影響,我們選取數據抓#取時間與資訊發布時間相隔一天以上的數據進行分析,例如在10月22日凌晨抓#取前兩日(20日和21日)的數據,取20日的數據進行分析。
四、數據描述
數據量:本文通過Mysql進行數據預處理,最終篩選出122119條數據,并利用Python進行數據處理和分析。
字段釋義:
五、數據清洗
5.1 利用Mysql進行數據前期處理
Mysql數據預處理過程中所建表5.1.1 先將抓#取的數據導入到Mysql
1.在Mysql中設計表結構
2、將抓#取到的數據從Excel中導入數據庫
原始數據原數據分散在各個excel中將Excel數據導入已創建的數據庫表中創建“今日頭條”,“趣頭條”,“百度百家”,“UC頭條”的基礎數據表toutiao_base、qu_base、baidu_base、uc_base。
5.1.2 數據預處理
在base表的基礎上,將時間數據轉為時間類型、提取資訊類型等,并創建表存儲清洗后的數據。
#接下來,依照創建toutiao_daily的方法,為“趣頭條”,“百度百家”,“UC頭條”創建數據表。
#各daily表的數據量5.1.3 利用時間間隔選取數據,并整合數據
- 選取數據抓#取時間與資訊發布時間相隔一天以上的數據
因每日采集數據量有限,而趣頭條數據量較大,故只能抓#取采集時間前一天的部分數據。所以我們僅利用其數據分析趣頭條資訊的類型特點,但在進行app數據橫向對比時將剔除這部分數據。
- 重復數據處理
- 將所有數據導入info_daily表中
5.1.4 將數據導出為csv文件
接下來,利用Python進一步對數據進行清洗和分析,請參考另外一篇文章。起名困難癥用戶:資訊類app用戶熱度及資訊類型分析?zhuanlan.zhihu.com總結
以上是生活随笔為你收集整理的mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python报表设计控件_使用Pytho
- 下一篇: sql增删改查_快速搞定数据库增删改查|