怎么打开网卡rss_RSS 进阶篇:Huginn - 真·为任意网页定制 RSS 源(PhantomJs 抓取)...
定制網(wǎng)頁(yè)RSS源主要有FEED43和Huginn兩種方法。
2. Huginn:自由度高,可設(shè)定抓取頻率、內(nèi)容結(jié)構(gòu)、js結(jié)果、輸出樣式等;需要搭建服務(wù)器,學(xué)習(xí)Huginn抓取規(guī)則。
不愿意搭建或有其他需求,可以1v1咨詢。
Huginn 準(zhǔn)備工作:
準(zhǔn)備工作完成后,我們已經(jīng)可以使用 Huginn 抓取頁(yè)面了。但很多網(wǎng)站都是用 JS 加載動(dòng)態(tài)內(nèi)容,需要通過(guò) PhantomJs Cloud 抓取頁(yè)面 JS 緩存。
————————
Huginn + PhantomJs Cloud 全網(wǎng)頁(yè)抓取
一、Phantom Js Cloud API key 獲取
注冊(cè) PhantomJs Cloud ,然后將 API key 保存在 Huginn 的 Credentials 中。
新建 Huginn 任務(wù)組 Scenario 「國(guó)內(nèi)應(yīng)急新聞」,抓取鏈接 http://www.cneb.gov.cn/guoneinews/
二、Phantom Js Cloud Agent 抓取頁(yè)面緩存
Name: 國(guó)內(nèi)應(yīng)急新聞 #1 獲取 JS 緩存
Schedule: Every 1h
三、WebsiteAgent 獲取頁(yè)面詳情
Name: 國(guó)內(nèi)應(yīng)急新聞 #2 抓取全頁(yè)
Sources: 國(guó)內(nèi)應(yīng)急新聞 #1 獲取 JS 緩存
Schedule: Every 1h
四、css path 路徑獲取
3. 選中要抓取的部分
4. 回到 Developer Tools 窗口,右鍵選中的藍(lán)色部分,獲取 css path、Xpath。這里以 css path 為例。
5. 處理 css path 路徑
html body div.area.areabg1 div.area-half.right div.tabBox div.tabContents.active table tbody tr td.red acss path 原始路徑過(guò)長(zhǎng),刪去不帶 . 或 # 的節(jié)點(diǎn)(節(jié)點(diǎn)間以空格“ ”分割),并刪去每個(gè)節(jié)點(diǎn)在 . 或 #前的第一個(gè)標(biāo)簽,得到:
.area.areabg1 .area-half.right .tabBox .tabContents.active .red a前半部分對(duì)節(jié)點(diǎn)定位無(wú)用,繼續(xù)省略(比如:中國(guó)上海,省略掉中國(guó),大家也知道上海在哪)
.tabContents.active .red a非常規(guī)情況處理:
a. 有些路徑中的節(jié)點(diǎn)帶空格,如<div class="packery-item article">,路徑中的空格由.代替,截取為.packery-item.article
b. 當(dāng)抓取多種 css path 規(guī)則時(shí),用逗號(hào),分割
"css": ".focus-title .current a , .stress h2 a",五、DataOutputAgent 導(dǎo)出 RSS
Name: 國(guó)內(nèi)應(yīng)急新聞 #3 排序生成RSS
Propagate immediately: Yes
回到Scenarios, 點(diǎn)擊最后一步的 Actions - Show ,復(fù)制導(dǎo)出的xml鏈接 http://xxx.xxxxxx/users/1/web_requests/xxx/xxxx.xml
詳細(xì)設(shè)置的使用文件-百度網(wǎng)盤下載
其他問(wèn)題,查看官方說(shuō)明-PhantomJs Cloud 英文使用攻略
總結(jié)
以上是生活随笔為你收集整理的怎么打开网卡rss_RSS 进阶篇:Huginn - 真·为任意网页定制 RSS 源(PhantomJs 抓取)...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: mongodb一致性协议_mongo的怎
- 下一篇: 案例 github_github 项目搜