日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

html做一个京东搜索功能,连续动作:自动搜索关键词采集信息—以京东为例

發布時間:2024/3/26 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 html做一个京东搜索功能,连续动作:自动搜索关键词采集信息—以京东为例 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、操作步驟

如果網頁上有搜索框,但是搜索結果頁面沒有獨立網址,想要采集搜索結果,直接做規則是采集不到的,要先做連續動作(輸入+點擊)來實現自動輸入關鍵詞并搜索,然后才能采集數據。下面用京東搜索為例,演示自動搜索采集,操作步驟如下:

二、案例規則+操作步驟第一級采集規則:連續動作_京東搜索

第二級采集規則:京東空調列表

樣本網址:https://list.jd.com/list.html?cat=737,794,870

采集內容:京東商品的名稱、價格、鏈接

注意:本案例京東搜索是有獨立網址的,對于具有獨立網址的頁面,最簡單的方法就是構造出每個關鍵詞的搜索網址,然后把線索網址導入到規則里,就可以批量采集,而不是設置連續動作,可以參考《如何構造網址》和《如何管理規則的線索》。

第一步:定義第一級規則

1.1打開集搜客網絡爬蟲,輸入網址并Enter,加載出網頁后再點擊“定義規則”按鈕,看到一個浮窗顯示出來,稱為工作臺,在上面定義規則;

注意:這里的截圖和文字說明都是集搜客網絡爬蟲版本 ,如果您安裝的是火狐插件版,那么就沒有“定義規則”按鈕,而是應該運行MS謀數臺

1.2在工作臺中輸入一級規則的主題名,再點擊“查重”,提示“該名可以使用”或“該名已被占用,可編輯:是”,就可以使用這個主題名,否則請重命名。

1.3本級規則主要是設置連續動作,所以,整理箱可以隨意抓取一個信息,用來給爬蟲判斷是否執行采集。雙擊網頁上的信息,輸入標簽名,并打勾確認,再勾上關鍵內容,首次標注還要輸入整理箱的名字,然后就完成標注映射了。

Tips:為了能準確定位網頁信息,點擊定義規則會把整個網頁定格住,不能跳轉網頁鏈接,再次點擊定義規則,才會恢復回普通的網頁模式。

第二步:定義連續動作

點擊工作臺的“連續動作”頁簽,點擊新建按鈕建立一個新動作,每個動作的設置方法都是一樣,基本操作如下:

2.1 ,輸入目標主題名

這里的目標主題名是填第二級主題名,點擊“誰在用”查看目標主題名是否可用,如果已經被占用,換一個主題名就行

2.2, 創建第一個動作:輸入

新建一個動作,并選擇動作類型為輸入。

2.2.1,填寫定位表達式

首先鼠標單擊輸入框,定位輸入框的節點,然后點擊“自動生成XPath”按鈕,可以選擇“偏好id”或者“偏好class”,就可以得到輸入框的xpath表達式,再點擊“搜索”按鈕,檢查一下這個xpath是否能唯一定位到輸入框,沒有問題就把xpath復制到定位表達式方框里。

注意:定位表達式里的xpath是要鎖定動作對象的整個有效操作范圍,具體就是指鼠標能夠點擊或輸入成功的網頁模塊,不要定位到最底層的text()節點。

2.2.2,輸入關鍵詞

輸入關鍵詞填寫你想搜索的關鍵詞,可以輸入一個關鍵詞,也可以輸入多個關鍵詞,輸入多個關鍵詞要用雙分號;;將每個關鍵詞隔開,免費版只支持5個以內的關鍵詞,旗艦版可以使用連發彈倉功能,支持1萬以內的關鍵詞

2.2.3,輸入動作名稱

告訴自己這一步動作是用來干嘛的,方便以后修改。

2.3,創建第二個動作:點擊

參考2.2的操作,創建第二個動作,選擇類型為點擊,定位到搜索按鈕,然后自動生成xpath,檢驗是否鎖定到唯一節點,沒問題的話填到定位表達式里就行了。

2.4,存規則

點擊“存規則”按鈕保存已完成的第一級規則

第三步:定義第二級規則

3.1,新建規則

創建第二級規則,點擊“定義規則”恢復到普通網頁模式,輸入關鍵詞搜索出結果后,再次點擊“定義規則”切換到做規則模式,點擊左上角“規則”菜單->“新建”,輸入主題名,這里的主題名就是第一級規則的連續動作里填寫的目標主題名。

3.2,標注想要采集的信息

3.2.1,標注網頁上想要采集的信息,這里是對商品名稱和價格做標注,因為標注只對文本信息有效,商品詳情的鏈接是屬性節點@href,所以,不能對鏈接做這樣的直觀標注,而要做內容映射,具體看下面的操作。

3.2.2,點擊商品名稱,下面的DOM節點定位到A標簽,展開A標簽下的attributes節點,就可以找到代表網址的@href節點,右擊節點,選擇“新建抓取內容“,輸入一個名字,一般給這個抓取內容起一個和地址有關的名字,比如“下級網址“,或者”下級鏈接“等等。然后在工作臺上,看到這個抓取內容有了。如果還要進入商品詳情頁采集,就要對著這個抓取內容勾選下級線索,做層級抓取。

3.2.3,設置“關鍵內容”選項,這樣爬蟲才能判斷出采集規則是否合適。在整理箱里選一個網頁上必然能采到的標簽,勾上“關鍵內容”。這里選擇的是“名稱”做為“關鍵內容”。

3.2.4,前面只對一個商品做標注,也就能得到一個商品信息,如果想把一整頁上每一個商品都采集下來,可以做樣例復制,不懂的請參考基礎教程《采集列表數據》

3.3,設置翻頁路線

在爬蟲路線設置翻頁,這里用的是記號線索,不懂的請參考基礎教程《設置翻頁采集》

3.4,存規則

點擊“測試”,檢查信息完整性。不完整的話,重新標注就可以覆蓋之前的內容。檢查沒問題后點擊“存規則”。

第四步:抓數據

4.1,連續動作是連續執行的,所以只要運行第一級主題,第二級主題不用運行。打開DS打數機,搜索出第一級主題名,點擊“單搜”或“集搜”,此時可以看到瀏覽器窗口里會自動輸入關鍵詞并且搜索,然后調用第二級主題自動采集搜索結果。

4.2,第一級主題沒采到有意義的信息,所以,我們只看第二級主題的文件夾,就能看到采集的搜索結果數據,并且搜索的關鍵詞是默認記錄在xml文件的actionvalue字段中,這樣就能一一對應起來。

若有疑問可以或

總結

以上是生活随笔為你收集整理的html做一个京东搜索功能,连续动作:自动搜索关键词采集信息—以京东为例的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。