html做一个京东搜索功能,连续动作:自动搜索关键词采集信息—以京东为例
一、操作步驟
如果網頁上有搜索框,但是搜索結果頁面沒有獨立網址,想要采集搜索結果,直接做規則是采集不到的,要先做連續動作(輸入+點擊)來實現自動輸入關鍵詞并搜索,然后才能采集數據。下面用京東搜索為例,演示自動搜索采集,操作步驟如下:
二、案例規則+操作步驟第一級采集規則:連續動作_京東搜索
第二級采集規則:京東空調列表
樣本網址:https://list.jd.com/list.html?cat=737,794,870
采集內容:京東商品的名稱、價格、鏈接
注意:本案例京東搜索是有獨立網址的,對于具有獨立網址的頁面,最簡單的方法就是構造出每個關鍵詞的搜索網址,然后把線索網址導入到規則里,就可以批量采集,而不是設置連續動作,可以參考《如何構造網址》和《如何管理規則的線索》。
第一步:定義第一級規則
1.1打開集搜客網絡爬蟲,輸入網址并Enter,加載出網頁后再點擊“定義規則”按鈕,看到一個浮窗顯示出來,稱為工作臺,在上面定義規則;
注意:這里的截圖和文字說明都是集搜客網絡爬蟲版本 ,如果您安裝的是火狐插件版,那么就沒有“定義規則”按鈕,而是應該運行MS謀數臺
1.2在工作臺中輸入一級規則的主題名,再點擊“查重”,提示“該名可以使用”或“該名已被占用,可編輯:是”,就可以使用這個主題名,否則請重命名。
1.3本級規則主要是設置連續動作,所以,整理箱可以隨意抓取一個信息,用來給爬蟲判斷是否執行采集。雙擊網頁上的信息,輸入標簽名,并打勾確認,再勾上關鍵內容,首次標注還要輸入整理箱的名字,然后就完成標注映射了。
Tips:為了能準確定位網頁信息,點擊定義規則會把整個網頁定格住,不能跳轉網頁鏈接,再次點擊定義規則,才會恢復回普通的網頁模式。
第二步:定義連續動作
點擊工作臺的“連續動作”頁簽,點擊新建按鈕建立一個新動作,每個動作的設置方法都是一樣,基本操作如下:
2.1 ,輸入目標主題名
這里的目標主題名是填第二級主題名,點擊“誰在用”查看目標主題名是否可用,如果已經被占用,換一個主題名就行
2.2, 創建第一個動作:輸入
新建一個動作,并選擇動作類型為輸入。
2.2.1,填寫定位表達式
首先鼠標單擊輸入框,定位輸入框的節點,然后點擊“自動生成XPath”按鈕,可以選擇“偏好id”或者“偏好class”,就可以得到輸入框的xpath表達式,再點擊“搜索”按鈕,檢查一下這個xpath是否能唯一定位到輸入框,沒有問題就把xpath復制到定位表達式方框里。
注意:定位表達式里的xpath是要鎖定動作對象的整個有效操作范圍,具體就是指鼠標能夠點擊或輸入成功的網頁模塊,不要定位到最底層的text()節點。
2.2.2,輸入關鍵詞
輸入關鍵詞填寫你想搜索的關鍵詞,可以輸入一個關鍵詞,也可以輸入多個關鍵詞,輸入多個關鍵詞要用雙分號;;將每個關鍵詞隔開,免費版只支持5個以內的關鍵詞,旗艦版可以使用連發彈倉功能,支持1萬以內的關鍵詞
2.2.3,輸入動作名稱
告訴自己這一步動作是用來干嘛的,方便以后修改。
2.3,創建第二個動作:點擊
參考2.2的操作,創建第二個動作,選擇類型為點擊,定位到搜索按鈕,然后自動生成xpath,檢驗是否鎖定到唯一節點,沒問題的話填到定位表達式里就行了。
2.4,存規則
點擊“存規則”按鈕保存已完成的第一級規則
第三步:定義第二級規則
3.1,新建規則
創建第二級規則,點擊“定義規則”恢復到普通網頁模式,輸入關鍵詞搜索出結果后,再次點擊“定義規則”切換到做規則模式,點擊左上角“規則”菜單->“新建”,輸入主題名,這里的主題名就是第一級規則的連續動作里填寫的目標主題名。
3.2,標注想要采集的信息
3.2.1,標注網頁上想要采集的信息,這里是對商品名稱和價格做標注,因為標注只對文本信息有效,商品詳情的鏈接是屬性節點@href,所以,不能對鏈接做這樣的直觀標注,而要做內容映射,具體看下面的操作。
3.2.2,點擊商品名稱,下面的DOM節點定位到A標簽,展開A標簽下的attributes節點,就可以找到代表網址的@href節點,右擊節點,選擇“新建抓取內容“,輸入一個名字,一般給這個抓取內容起一個和地址有關的名字,比如“下級網址“,或者”下級鏈接“等等。然后在工作臺上,看到這個抓取內容有了。如果還要進入商品詳情頁采集,就要對著這個抓取內容勾選下級線索,做層級抓取。
3.2.3,設置“關鍵內容”選項,這樣爬蟲才能判斷出采集規則是否合適。在整理箱里選一個網頁上必然能采到的標簽,勾上“關鍵內容”。這里選擇的是“名稱”做為“關鍵內容”。
3.2.4,前面只對一個商品做標注,也就能得到一個商品信息,如果想把一整頁上每一個商品都采集下來,可以做樣例復制,不懂的請參考基礎教程《采集列表數據》
3.3,設置翻頁路線
在爬蟲路線設置翻頁,這里用的是記號線索,不懂的請參考基礎教程《設置翻頁采集》
3.4,存規則
點擊“測試”,檢查信息完整性。不完整的話,重新標注就可以覆蓋之前的內容。檢查沒問題后點擊“存規則”。
第四步:抓數據
4.1,連續動作是連續執行的,所以只要運行第一級主題,第二級主題不用運行。打開DS打數機,搜索出第一級主題名,點擊“單搜”或“集搜”,此時可以看到瀏覽器窗口里會自動輸入關鍵詞并且搜索,然后調用第二級主題自動采集搜索結果。
4.2,第一級主題沒采到有意義的信息,所以,我們只看第二級主題的文件夾,就能看到采集的搜索結果數據,并且搜索的關鍵詞是默認記錄在xml文件的actionvalue字段中,這樣就能一一對應起來。
若有疑問可以或
總結
以上是生活随笔為你收集整理的html做一个京东搜索功能,连续动作:自动搜索关键词采集信息—以京东为例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows 10 64bit下安装T
- 下一篇: LLVM系列第八章:算术运算语句Arit