日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新浪微博数据采集图文详解

發布時間:2024/1/18 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 新浪微博数据采集图文详解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨著大數據和社交網絡的火爆發展,社交網絡上產生的數據也越來越有價值,特別是微博微信作為時下最火熱的社交平臺,如果能對這兩個平臺上的數據進行深入分析挖掘,那么價值將非常巨大, 要采集的數據為指定城市的所有微博用戶的相關信息。比如微博名稱,微博地址,微博數量,粉絲數量,名片等等,進入正題,看看具體一步一步怎么操作來實現的。

  • 打開八爪魚采集器,新建一個任務之后,如下圖選擇分組:新浪微博,這里其實隨便什么分組都可以,我是把新浪微博專門放了一個分組,以便管理采集微博的多個任務。任務名稱,這里按照自己的情況輸入即可,我這里采集的是沈陽的微博信息。然后輸入備注。

  • 然后就到了設計采集流程的界面,這個界面看起來復雜,其實很簡單,我們先看上面一半,包括第一個 Go to Web Page, 和Check Condition 里面的全部流程步驟。其實他們完成一個什么工作呢?就是打開微博登錄頁面,然后檢查用戶是否登錄,如果沒有登錄,則走左邊流程,三步:輸入用戶名,輸入密碼,點擊登錄。如果已經登錄,則走右邊流程:什么事情都不做。為什么需要登錄呢,如果不登錄,則只能看到一頁數據,登錄后就能看所有數據,所以我們想要采集所有數據,就要登錄。下半部分流程因截圖不全,所以請大家看第三步。

  • 接上一步,這里看下半部分流程,下半部分第一步是打開沈陽用戶列表,然后是一個Loop循環:循環翻頁,因為我們要采集所有頁面的數據,在這個循環內部,還有一個循環:循環當前頁所有用戶,這樣就能采集到一個頁面的多個用戶的數據,微博一頁有20個用戶的數據。這個循環內部有一個提取數據的步驟,這一步就是真正提取數據,不過他提取的是當前循環用戶的數據。我們只需要在頁面上點擊要采集的數據,系統就會自動配置好,所以這一步很容易。

  • 配置好采集規則之后,我們設定執行計劃,這里因為我需要每周采集一次,以獲取到這一周新注冊的微博用戶,所以我選擇一周一次,注意這個定時是云采集的,意思是,他會在八爪魚采集器的云服務器跑,而且啟動時間如圖,我們定的是周一晚上0點,當然這個時間你可以自己定。所以我們電腦不用每周一晚上0點打開去采集,我們配好就不管了,以后每個周一0點,八爪魚云采集服務器都會自動啟動我的任務進行采集。

  • 經過以上幾個步驟就算配置好了,我們下一步,進行一個測試,從圖中可以看到已經順利采集到了數據,當采集完成之后,即可導出為Excel等使用了。

  • 轉載于:https://www.cnblogs.com/keven1006/p/3448743.html

    總結

    以上是生活随笔為你收集整理的新浪微博数据采集图文详解的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。