【微博】评论采集
采集場景
在微博主頁(https://weibo.com/)登錄后,打開微博博文鏈接,采集博文鏈接的評論數(shù)據(jù)。實例網(wǎng)址:https://weibo.com/1977661791/I7PgktlCh 。
采集字段
博主用戶名、發(fā)布時間、博文、分享數(shù)、評論數(shù)、點贊數(shù)、評論、評論用戶名、評論時間。
采集結(jié)果
采集結(jié)果可導出為Excel、CSV、HTML、數(shù)據(jù)庫等多種格式。導出為Excel示例:
教程說明
本篇更新時間:2020/05/18 八爪魚版本:V8.1.12
如果因網(wǎng)頁改版造成網(wǎng)址或步驟無效,無法收集到目標數(shù)據(jù),請聯(lián)系官方客服,我們將及時修正。
采集步驟
步驟一:打開網(wǎng)頁
步驟二、使用賬號密碼登錄微博
步驟三、創(chuàng)建【循環(huán)-打開網(wǎng)頁】,批量打開多個博文網(wǎng)址
步驟四、設(shè)置滾動
步驟五、提取微博字段 步驟
步驟六、創(chuàng)建循環(huán)翻頁,以采集多頁評論
步驟七、創(chuàng)建【循環(huán)點擊】,展開評論下的回復
步驟八、創(chuàng)建【循環(huán)列表】,提取評論列表數(shù)據(jù)
步驟九、啟動采集
以下為具體步驟:
步驟一、打開網(wǎng)頁
在首頁【輸入框】中,輸入微博主頁網(wǎng)址 https://weibo.com/,點擊【開始采集】,八爪魚自動打開網(wǎng)址。
特別說明:
a. 打開網(wǎng)頁后,如果開始【自動識別】,請點擊【不再自動識別】或【取消識別】將其關(guān)掉。因為本文不適合使用【自動識別】。
b. 【自動識別】適用于自動識別網(wǎng)頁上的列表、滾動和翻頁,識別成功后直接啟動采集即可獲取數(shù)據(jù)。詳情點擊查看 【自動識別】教程
步驟二、使用賬號密碼登錄微博
要采集微博評論數(shù)據(jù),首先需要登錄。如果沒有登錄,采集過程中容易跳出登錄提示,影響正常采集。
在八爪魚中的登錄步驟:
1、選中用戶名輸入框,在操作提示框中點擊【輸入文本】,輸入賬號。
2、選中密碼輸入框,在操作提示框中點擊【輸入文本】,輸入密碼。
3、選中【登錄】按鈕,在操作提示框中,點擊【單擊該按鈕】。
等待一會后,成功登陸微博。
特別說明:
a. 一般情況下,微博輸入賬號密碼即可登錄。如果登錄時出現(xiàn)驗證碼,八爪魚也可解決,點擊查看 處理需要登錄的網(wǎng)頁(含登錄時有驗證碼)
b. 如果賬號密碼輸錯, 進入【輸入文本】設(shè)置頁面,更改成正確的即可。更改后再執(zhí)行一次【點擊元素】,即可完成登錄。
步驟三、創(chuàng)建【循環(huán)-打開網(wǎng)頁】,批量打開多個博文網(wǎng)址
創(chuàng)建【循環(huán)-打開網(wǎng)頁】,批量打開多個博文網(wǎng)址,實現(xiàn)自動采集多個博文網(wǎng)址下的評論。
在【點擊元素】步驟后,添加一個【循環(huán)】。
進入【循環(huán)】設(shè)置頁面。選擇循環(huán)方式為【網(wǎng)址列表】,點擊 按鈕,將我們準備好的網(wǎng)址(可同時輸入多個網(wǎng)址,一行一個即可)后保存。
步驟四、設(shè)置滾動
打開微博主頁后,默認只顯示一部分評論列表。向下滾動頁面3次,才會出現(xiàn)【查看更多】按鈕,點擊此按鈕可查看更多評論。在八爪魚中也需設(shè)置滾動。
進入【打開網(wǎng)頁】設(shè)置頁面,點開【頁面加載后】,設(shè)置【頁面加載后向下滾動】,滾動方式為【滾動到底部】,【滾動次數(shù)】為3次,【每次間隔】2秒 并保存。
特別說明:
a. 設(shè)置中的滾動次數(shù)和時間間隔,請根據(jù)采集需求和網(wǎng)頁加載情況進行設(shè)置,并非是一成不變的,具體請點擊查看處理滾動加載數(shù)據(jù)的網(wǎng)頁教程
步驟五、提取微博字段
選中網(wǎng)頁中的目標字段,在操作提示框中點擊【采集該元素的文本】。
所有文本類的字段都可這樣提取,示例中提取了 用戶名、發(fā)布時間、博文詳情、評論數(shù)、點贊數(shù) 。
步驟六、創(chuàng)建循環(huán)翻頁,以采集多頁評論
1、創(chuàng)建循環(huán)翻頁
找到并選中網(wǎng)頁里的【查看更多】按鈕,在操作提示上單擊【循環(huán)點擊單個元素】,創(chuàng)建【循環(huán)翻頁】。
特別說明:
a. 創(chuàng)建【循環(huán)翻頁】后,采集數(shù)據(jù)時八爪魚就會自動點擊【查看更多】按鈕翻頁,以加載更多微博評論。
2、設(shè)置翻頁次數(shù)
針對這類通過【查看更多】進行翻頁的網(wǎng)頁,需設(shè)置一個合適的翻頁次數(shù)。
進入【循環(huán)翻頁】設(shè)置頁面,點開【退出循環(huán)設(shè)置】,勾選【循環(huán)執(zhí)行次數(shù)等于】10次。
特別說明:
a. 為什么通過【查看更多】進行翻頁的網(wǎng)頁,需設(shè)置一個合適的翻頁次數(shù)?通過一定次數(shù)的【查看更多】翻頁后,頁面上展示出非常多的評論列表。這些列表同在一個頁面,采集的時候都會被定為到。如果同時定位的列表過多,速度會慢,影響數(shù)據(jù)的正常采集。設(shè)置一個合理的翻頁次數(shù),可以控制同時定位到的列表,保障數(shù)據(jù)采集正常進行。
步驟七、創(chuàng)建【循環(huán)點擊】,展開評論下的回復
微博的評論分為主評論和其回復。示例中,我們點擊【共X條回復】展開評論下的回復。
如果主評論下的回復過多,需點擊多次【共X條回復】,才能展開全部回復。示例中只考慮點擊1次【共X條回復】的情況。
1、創(chuàng)建【循環(huán)點擊】
① 在網(wǎng)頁中選中第一個【共X條回復】按鈕
② 在操作提示框中,點擊【選中全部】
③ 繼續(xù)選擇【循環(huán)點擊每個鏈接】
2、調(diào)整流程結(jié)構(gòu)
我們需要的采集邏輯為:先點擊【查看更多】進行翻頁 → 點擊【共X條回復】展開主評論下的回復。
但自動生成的采集流程不是這樣的,需手動調(diào)整:選中【循環(huán)列表-點擊元素1】整個步驟,將其拖入到【循環(huán)翻頁】后。
特別說明:
a. 流程十分靈活,可根據(jù)需求調(diào)整各個步驟的位置。
3、修改【循環(huán)點擊】XPath
一條博文下,【共X條回復】的個數(shù)是不確定的。默認生成的【循環(huán)點擊】XPath,無法精準定位到每一個【共X條回復】,需手動修改。
進入【循環(huán)列表】設(shè)置頁面,選擇【循環(huán)方式】為【不固定元素列表】,修改XPath為://div[@class=“WB_text”]/a[@suda-uatrack] ,然后保存。
特別說明:
a. 這里需要一定的XPath知識。點擊查看 XPath學習與實例教程 。
步驟八、創(chuàng)建【循環(huán)列表】,提取評論列表數(shù)據(jù)
1、建立【循環(huán)列表】
通過以下連續(xù)4步,采集所有評論列表數(shù)據(jù):
1、選中頁面上1個評論列表(注意一定要選中整個列表,包含所有所需字段)
2、在黃色操作提示框中,點擊【選中子元素】
3、點擊【選擇全部】
4、點擊【采集數(shù)據(jù)】
特別說明:
a. 經(jīng)過以上連續(xù)4步,【循環(huán)-提取數(shù)據(jù)】創(chuàng)建完成?!狙h(huán)】中的項,對應著頁面上所有評論列表,【提取數(shù)據(jù)】中的字段,對應著每個評論列表中的字段。啟動采集以后,八爪魚就會按照循環(huán)中的順序依次提取每個列表中的字段。
b. 為何通過以上4步,可建立【循環(huán)-提取數(shù)據(jù)】?詳情點擊查看 列表數(shù)據(jù)采集教程 。
2、編輯字段
進入【提取數(shù)據(jù)】設(shè)置頁面,可刪除多余字段,修改字段名,移動字段順序等。
3、增加【主評論】字段
以上操作是采集的評論回復。增加一個【主評論】字段,將主評論與評論回復數(shù)據(jù)一一對應起來。
進入【提取數(shù)據(jù)】設(shè)置頁面,點擊【+】按鈕,選擇【添加固定字段】,點擊保存。
點擊【自定義字段】后的 按鈕,勾選【相對于當前循環(huán)里的XPath】,輸入XPath://…/…/…/…/preceding-sibling::div[@class=“WB_text”][1] ,然后保存。
點擊【自定義字段】后的【…】按鈕,選擇【自定義抓取方式】,選擇【抓取文本】。
修改字段名為【主評論】。
點擊【應用】保存以上所有設(shè)置。
步驟九、啟動采集
1、單擊【采集】并【啟動本地采集】。啟動后八爪魚開始自動采集數(shù)據(jù)。
特別說明:
a.【本地采集】是使用自己的電腦進行采集,【云采集】是使用八爪魚提供的云服務器采集,點擊查看本地采集與云采集詳解。
2、采集完成后,選擇合適的導出方式導出數(shù)據(jù)。支持導出為Excel、CSV、HTML、數(shù)據(jù)庫等。這里導出為Excel。數(shù)據(jù)示例:
總結(jié)
- 上一篇: wordpress 根据文章ID获取分类
- 下一篇: POJ 3264 Balanced