日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...

發布時間:2025/3/15 数据库 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文是“資訊類app用戶熱度及資訊類型分析”一文中,Mysql進行數據預處理的部分。因為篇幅可能比較長,而且摘出來不會過于影響原文分析思路,所以這里單獨進行介紹。(本文前四部分與正文基本相同,正文跳轉讀者可忽略,直接翻到第五部分)

一、背景分析

隨著今日頭條的崛起,資訊類app已經成為各巨頭爭奪流量入口的又一主要陣地。除了百度和阿里文娛旗下UC瀏覽器分別推出了百度百家和UC頭條,騰訊也在發布天天快報后投資了趣頭條,而趣頭條也在18年9月赴美上市。這些資訊類app有一個共同的特點,他們都是基于機器學習和數據挖掘的資訊推薦類產品,為用戶推薦其感興趣的信息。

通過百度指數搜索“今日頭條”、“百度百家”、“趣頭條”以及“UC頭條”四個關鍵字,我們可以發現今日頭條搜索指數和搜索趨勢均遠高于其他幾款產品,說明其產品熱度一直較高,受到了更多人的關注。

近一個月四款app搜索熱度

2011年以來四款app索索熱度趨勢

趣頭條近期的發展速度也很迅猛,尤其是9月15日前后,其熱度超過了今日頭條,可能是因為上市新聞引起了大家的關注。相對而言,百度百家和UC頭條則一直不溫不火,熱度一直不高。

二、問題定位

結合以上背景,本文主要對以下幾個問題進行探索。

不同app之間橫向對比:

  • 不同app的用戶熱度,即活躍度比較(從閱讀量、評論量、資訊量及作者量等角度分析)
  • 不同app的資訊類型差異(比較閱讀量最高、資訊量最多的資訊類型都是哪些,不同app中主要資訊內容是否有差異)
  • 以今日頭條為例,不同時段用戶熱度的縱向對比:

  • 不同周期的用戶熱度趨勢(一周中,不同周期用戶瀏覽行為和作者產出特點的差異)
  • 不同時刻的用戶熱度趨勢(一天中,不同時刻用戶瀏覽行為和作者產出特點的差異)
  • 目的:分析不同app用戶瀏覽以及內容創作者產出特點,為用戶瀏覽資訊以及創作者發布資訊提供建議。

    三、獲取數據

    本文數據抓#取于“自媒咖”,抓#取方式是利用某數據抓#取工具在每晚十二點后開始抓#取前兩天的數據。最終抓#取了四款app的文章相關信息,其資訊發布時間范圍在2018-10-14至2018-10-21日之間。

    自媒咖

    本文數據分析所使用到的工具:

  • Mysql(數據前期的預處理:如數據整合、去重等操作)
  • Python (數據進一步清洗及分析:如描述性統計以及可視化等)
  • 因為考慮到如果數據抓#取時間距離資訊發布時間太近時,資訊的閱讀量等信息會和較早發布的資訊產生較明顯差異。因此為盡量避免這種因素的影響,我們選取數據抓#取時間與資訊發布時間相隔一天以上的數據進行分析,例如在10月22日凌晨抓#取前兩日(20日和21日)的數據,取20日的數據進行分析。

    四、數據描述

    數據量:本文通過Mysql進行數據預處理,最終篩選出122119條數據,并利用Python進行數據處理和分析。

    字段釋義:

    五、數據清洗

    5.1 利用Mysql進行數據前期處理

    Mysql數據預處理過程中所建表

    5.1.1 先將抓#取的數據導入到Mysql

    1.在Mysql中設計表結構

    2、將抓#取到的數據從Excel中導入數據庫

    原始數據

    原數據分散在各個excel中

    將Excel數據導入已創建的數據庫表中

    創建“今日頭條”,“趣頭條”,“百度百家”,“UC頭條”的基礎數據表toutiao_base、qu_base、baidu_base、uc_base。

    5.1.2 數據預處理

    在base表的基礎上,將時間數據轉為時間類型、提取資訊類型等,并創建表存儲清洗后的數據。

    #

    接下來,依照創建toutiao_daily的方法,為“趣頭條”,“百度百家”,“UC頭條”創建數據表。

    #

    各daily表的數據量

    5.1.3 利用時間間隔選取數據,并整合數據

    • 選取數據抓#取時間與資訊發布時間相隔一天以上的數據

    因每日采集數據量有限,而趣頭條數據量較大,故只能抓#取采集時間前一天的部分數據。所以我們僅利用其數據分析趣頭條資訊的類型特點,但在進行app數據橫向對比時將剔除這部分數據。

    • 重復數據處理
    • 將所有數據導入info_daily表中
    #

    5.1.4 將數據導出為csv文件

    接下來,利用Python進一步對數據進行清洗和分析,請參考另外一篇文章。起名困難癥用戶:資訊類app用戶熱度及資訊類型分析?zhuanlan.zhihu.com

    總結

    以上是生活随笔為你收集整理的mysql查询时间类型c语言处理_资讯类app用户热度及资讯类型分析-Mysql进行数据预处理...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。