當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

html做一个京东搜索功能,连续动作：自动搜索关键词采集信息—以京东为例

發布時間：2024/3/26 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 html做一个京东搜索功能,连续动作：自动搜索关键词采集信息—以京东为例小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、操作步驟

如果網頁上有搜索框，但是搜索結果頁面沒有獨立網址，想要采集搜索結果，直接做規則是采集不到的，要先做連續動作(輸入+點擊)來實現自動輸入關鍵詞并搜索，然后才能采集數據。下面用京東搜索為例，演示自動搜索采集，操作步驟如下：

二、案例規則+操作步驟第一級采集規則：連續動作_京東搜索

第二級采集規則：京東空調列表

樣本網址：https://list.jd.com/list.html?cat=737,794,870

采集內容：京東商品的名稱、價格、鏈接

注意：本案例京東搜索是有獨立網址的，對于具有獨立網址的頁面，最簡單的方法就是構造出每個關鍵詞的搜索網址，然后把線索網址導入到規則里，就可以批量采集，而不是設置連續動作，可以參考《如何構造網址》和《如何管理規則的線索》。

第一步：定義第一級規則

1.1打開集搜客網絡爬蟲，輸入網址并Enter，加載出網頁后再點擊“定義規則”按鈕，看到一個浮窗顯示出來，稱為工作臺，在上面定義規則；

注意：這里的截圖和文字說明都是集搜客網絡爬蟲版本，如果您安裝的是火狐插件版，那么就沒有“定義規則”按鈕，而是應該運行MS謀數臺

1.2在工作臺中輸入一級規則的主題名，再點擊“查重”，提示“該名可以使用”或“該名已被占用，可編輯：是”，就可以使用這個主題名，否則請重命名。

1.3本級規則主要是設置連續動作，所以，整理箱可以隨意抓取一個信息，用來給爬蟲判斷是否執行采集。雙擊網頁上的信息，輸入標簽名，并打勾確認，再勾上關鍵內容，首次標注還要輸入整理箱的名字，然后就完成標注映射了。

Tips：為了能準確定位網頁信息，點擊定義規則會把整個網頁定格住，不能跳轉網頁鏈接，再次點擊定義規則，才會恢復回普通的網頁模式。

第二步：定義連續動作

點擊工作臺的“連續動作”頁簽，點擊新建按鈕建立一個新動作，每個動作的設置方法都是一樣，基本操作如下：

2.1 ，輸入目標主題名

這里的目標主題名是填第二級主題名，點擊“誰在用”查看目標主題名是否可用，如果已經被占用，換一個主題名就行

2.2，創建第一個動作：輸入

新建一個動作，并選擇動作類型為輸入。

2.２.1，填寫定位表達式

首先鼠標單擊輸入框，定位輸入框的節點，然后點擊“自動生成XPath”按鈕，可以選擇“偏好id”或者“偏好class”，就可以得到輸入框的xpath表達式，再點擊“搜索”按鈕，檢查一下這個xpath是否能唯一定位到輸入框，沒有問題就把xpath復制到定位表達式方框里。

注意：定位表達式里的xpath是要鎖定動作對象的整個有效操作范圍，具體就是指鼠標能夠點擊或輸入成功的網頁模塊，不要定位到最底層的text()節點。

2.2.2，輸入關鍵詞

輸入關鍵詞填寫你想搜索的關鍵詞，可以輸入一個關鍵詞，也可以輸入多個關鍵詞，輸入多個關鍵詞要用雙分號;;將每個關鍵詞隔開，免費版只支持5個以內的關鍵詞，旗艦版可以使用連發彈倉功能，支持1萬以內的關鍵詞

2.2.3，輸入動作名稱

告訴自己這一步動作是用來干嘛的，方便以后修改。

2.3，創建第二個動作：點擊

參考2.2的操作，創建第二個動作，選擇類型為點擊，定位到搜索按鈕，然后自動生成xpath，檢驗是否鎖定到唯一節點，沒問題的話填到定位表達式里就行了。

2.4，存規則

點擊“存規則”按鈕保存已完成的第一級規則

第三步：定義第二級規則

3.1，新建規則

創建第二級規則，點擊“定義規則”恢復到普通網頁模式，輸入關鍵詞搜索出結果后，再次點擊“定義規則”切換到做規則模式，點擊左上角“規則”菜單->“新建”，輸入主題名，這里的主題名就是第一級規則的連續動作里填寫的目標主題名。

3.2，標注想要采集的信息

3.2.1，標注網頁上想要采集的信息，這里是對商品名稱和價格做標注，因為標注只對文本信息有效，商品詳情的鏈接是屬性節點@href，所以，不能對鏈接做這樣的直觀標注，而要做內容映射，具體看下面的操作。

3.2.2，點擊商品名稱，下面的DOM節點定位到A標簽，展開A標簽下的attributes節點，就可以找到代表網址的@href節點，右擊節點，選擇“新建抓取內容“，輸入一個名字，一般給這個抓取內容起一個和地址有關的名字，比如“下級網址“，或者”下級鏈接“等等。然后在工作臺上，看到這個抓取內容有了。如果還要進入商品詳情頁采集，就要對著這個抓取內容勾選下級線索，做層級抓取。

3.2.3，設置“關鍵內容”選項，這樣爬蟲才能判斷出采集規則是否合適。在整理箱里選一個網頁上必然能采到的標簽，勾上“關鍵內容”。這里選擇的是“名稱”做為“關鍵內容”。

3.2.4，前面只對一個商品做標注，也就能得到一個商品信息，如果想把一整頁上每一個商品都采集下來，可以做樣例復制，不懂的請參考基礎教程《采集列表數據》

3.3，設置翻頁路線

在爬蟲路線設置翻頁，這里用的是記號線索，不懂的請參考基礎教程《設置翻頁采集》

3.4，存規則

點擊“測試”，檢查信息完整性。不完整的話，重新標注就可以覆蓋之前的內容。檢查沒問題后點擊“存規則”。

第四步：抓數據

4.1，連續動作是連續執行的，所以只要運行第一級主題，第二級主題不用運行。打開DS打數機，搜索出第一級主題名，點擊“單搜”或“集搜”，此時可以看到瀏覽器窗口里會自動輸入關鍵詞并且搜索，然后調用第二級主題自動采集搜索結果。

4.2，第一級主題沒采到有意義的信息，所以，我們只看第二級主題的文件夾，就能看到采集的搜索結果數據，并且搜索的關鍵詞是默認記錄在xml文件的actionvalue字段中，這樣就能一一對應起來。

若有疑問可以或

總結

以上是生活随笔為你收集整理的html做一个京东搜索功能,连续动作：自动搜索关键词采集信息—以京东为例的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： windows 10 64bit下安装T
下一篇： LLVM系列第八章：算术运算语句Arit