日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

信息采集-火车采集器

發布時間:2023/12/18 编程问答 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信息采集-火车采集器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近一位同事提出要采集alibaba上的公司信息,關鍵詞是工業加濕器。

?

主管把任務分配給我后,推薦了一款軟件,火車采集器(真心不是做廣告)。

?

研究了兩天,還算簡單,除了正則表達式似懂非懂,其他都還好,也成功的采集了alibaba的信息。

?

做點筆記:

1、可視化Xpath雖然很好用,但alibaba的頁面卻不支持,原因不明,報錯。

2、多級網址獲取,會從上往下一條一條的遍歷搜索,太多條的話數據量很大。

3、建議用前后提取,html代碼簡單明了,用firebug查看方便。

4、前后截取不一定要是標簽,也可以是標簽內的文字。

5、標簽編輯-數據處理(添加-HTML標簽排除很有用),建議全選,可以去除很多空格。

6、同樣,數據處理中的替換也很有用。

7、內容過濾,可以用來排除重復的公司,設置公司名的標簽不重復和非空。

8、盡可能用多頁管理來進行生成分頁,而不是直接進行采集,速度要快很多很多。。

9、發布內容(導出內容),免費版不讓導出excel,可以在任務上右鍵,打開Data下任務文件夾,然后用數據庫文件導出excel。

?

轉載于:https://www.cnblogs.com/baigezhengliu321/archive/2013/03/26/3043964.html

總結

以上是生活随笔為你收集整理的信息采集-火车采集器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。