网页图片采集教程(如何采集图片)
生活随笔
收集整理的這篇文章主要介紹了
网页图片采集教程(如何采集图片)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
如果要采集文章中的圖片,要怎么設置呢?
圖片在網頁頁面里是img標簽(HTML代碼),所以要想采集到圖片,就要在文章采集器中設置保留HTML標簽,否則只能采集到文本。
具體操作我們舉例子來說明:
目錄
1. 錯誤例子
2. 正確例子
3. 只采集含有圖片的數據
1. 錯誤例子
下圖例子中是在簡數采集器中設置了獲取html(左側下方),但是選擇采集區域時點選到了圖片本身(即img標簽)。
此時Xpath路徑欄是img結尾,表示獲取img標簽里面的內容,但是img標簽里面是沒有內容的,它本身就是代表圖片的代碼,這種情況是無法采集到圖片的。
2. 正確例子
正確獲取到圖片的方式應該是獲取img標簽的上一層標簽(或者更上幾層的標簽也行),只要這個標簽里面包含了img標簽,這樣就能采集到圖片了。
我們可以使用【擴大點選區域】按鈕技巧來解決這個問題,圖片獲取正確時詳情提取器左下方預覽是可以看到img標簽的,Xpath路徑欄不是img結尾。
3. 只采集含有圖片的數據
簡數采集器還可以設置只采集有圖片的文章,沒有圖片的數據就不采集。
設置方法也很簡單,進入【內容過濾】設置--》在【內容必須包含】處填寫<img,最后保存。
總結
以上是生活随笔為你收集整理的网页图片采集教程(如何采集图片)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 记录python3.6安装faiss包
- 下一篇: 快解析DDNS 无需公网ip 安全高效