火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据
使用分頁采集有分頁的數據
分頁就是目標網站上一個文章分為好幾頁,我們需要設置規則將其全部采到。采集要點:
1.采集規則要對每個分頁都適用。
2.分頁規則如果是全部列出,只要第一個頁面的分頁規則就可以了。如果是上下頁,每個頁面的分頁規則也要都適用。
具體操作流程:先測試獲得所有分頁,再對每個分頁里的內容進行獲取。
我們先解釋第一點:采集規則要對每個分頁都適用
我們先看一下,這里分頁有兩個,前一頁[1] [2] 下 一頁 ,我們要做的是要使所寫的規則在兩個頁面中都可以正常采到內容,寫個規則,測試第一頁,成功獲 取內容,然后改寫網址為第二個,測試,同樣可以獲得我們要的內容,那么,說明這一步你已經成功了。進入下一步。我的規則是這樣寫的,兩個頁面都通過。規則下 載.
現在我們看分頁這里的設置,全部列出是在第一頁或每一頁上都有全部的頒布文章的網址,上下頁是沒有將全部的列出。我們這個規則里選全部列出。因此, 我們只要在第一頁里找好包含所有網址的區域就可以了。
前一頁[1] [2] 下一頁看一下,上邊是有分頁網址的區域,選個開頭結尾,就可以正常采到分頁了。
火車的新版是可以直觀的看到分頁網址的,這對做分頁規則很有用。
看吧,這樣全部采集到了。。規則下 載。
注意:分頁設置下邊有個分頁內容合并連接代碼,你可以設置成你想要的東西,比如你CMS的手動分頁標簽。
下邊我們來講一個上下頁的分頁處理方法及如何使用手動鏈接地地規則.我們以 http://www.inpai.com.cn/doc/hard/86643.htm?這 個頁面為例.我們來找一下分頁的開頭和結尾,這個分頁很明顯.
開始:
結束:. 使用上一頁,下一頁的形式就可以采到所有地址.不過你會發現有一個地址是我們不需要的,看下邊:████████████████████████████████████
█此頁面包含多個分頁:
█1:http://www.inpai.com.cn/doc/hard/86643.htm
█2:http://www.inpai.com.cn/doc/hard/86643_2.htm
█3:http://www.inpai.com.cn/doc/hard/86643_3.htm
█4:http://www.inpai.com.cn/doc/hard/86643_4.htm
█5:http://www.inpai.com.cn/doc/hard/86643_5.htm
█6:http://www.inpai.com.cn/doc/hard/86643_6.htm
█7:http://www.inpai.com.cn/doc/hard/86643_7.htm
█8:http://www.inpai.com.cn/doc/hard/86643_8.htm
█9:http://www.inpai.com.cn/doc/hard/86643_9.htm
█10:http://www.inpai.com.cn/doc/hard/86643_10.htm
█11:http://www.inpai.com.cn/doc/hard/86643_11.htm
█12:http://www.inpai.com.cn/doc/hard/86643_12.htm
█13:http://www.inpai.com.cn/doc/hard/86643_13.htm
█14:http://www.inpai.com.cn/doc/hard/86643_14.htm
█15:http://www.inpai.com.cn/doc/hard/86643_15.htm
█16:http://www.inpai.com.cn/doc/hard/86643_16.htm
█17:http://www.inpai.com.cn/doc/hard/86643_17.htm
█18:http://www.inpai.com.cn/doc/hard/86643_18.htm
█19:http://product.inpai.com.cn/Product_default_1041.htm
█ 有分頁匹配的標簽,比如內容注意選中標簽編輯框中的[該標簽在分頁中匹配]
████████████████████████████████████
最后一個不是的,我們可以看到,前邊的網址和后邊的是不一樣的.現在是我們使用手動填寫鏈接地址規則的時候了.在分頁鏈接地址樣式里邊,我們寫 http://www.inpai.com.cn/[參數].htm 分頁網址里寫http://www.inpai.com.cn/[參數 1].htm,現在看一下,正確了.
技巧:在使用自定義地址樣式時,程序會自動補全網址,請看這個規則
總結
以上是生活随笔為你收集整理的火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP PCA利润中心会计案例教程后台配
- 下一篇: beyond compare 中文乱码问