信息采集-火车采集器
生活随笔
收集整理的這篇文章主要介紹了
信息采集-火车采集器
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
最近一位同事提出要采集alibaba上的公司信息,關鍵詞是工業加濕器。
?
主管把任務分配給我后,推薦了一款軟件,火車采集器(真心不是做廣告)。
?
研究了兩天,還算簡單,除了正則表達式似懂非懂,其他都還好,也成功的采集了alibaba的信息。
?
做點筆記:
1、可視化Xpath雖然很好用,但alibaba的頁面卻不支持,原因不明,報錯。
2、多級網址獲取,會從上往下一條一條的遍歷搜索,太多條的話數據量很大。
3、建議用前后提取,html代碼簡單明了,用firebug查看方便。
4、前后截取不一定要是標簽,也可以是標簽內的文字。
5、標簽編輯-數據處理(添加-HTML標簽排除很有用),建議全選,可以去除很多空格。
6、同樣,數據處理中的替換也很有用。
7、內容過濾,可以用來排除重復的公司,設置公司名的標簽不重復和非空。
8、盡可能用多頁管理來進行生成分頁,而不是直接進行采集,速度要快很多很多。。
9、發布內容(導出內容),免費版不讓導出excel,可以在任務上右鍵,打開Data下任務文件夾,然后用數據庫文件導出excel。
?
轉載于:https://www.cnblogs.com/baigezhengliu321/archive/2013/03/26/3043964.html
總結
以上是生活随笔為你收集整理的信息采集-火车采集器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 致我测试之路的“七年之痒”
- 下一篇: oracle RAC切换归档