不用写代码也能学会采集海量企业电话及邮箱数据
2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
本文主要介紹如何使用后羿采集軟件的智能模式,免費(fèi)采集順企網(wǎng)上企業(yè)的公司名稱、法人名稱、聯(lián)系電話、企業(yè)地址及郵箱等信息。
采集工具簡(jiǎn)介:
后羿采集軟件是一款基于人工智能技術(shù)的網(wǎng)絡(luò)爬蟲軟件,只需要輸入網(wǎng)址就能夠自動(dòng)識(shí)別網(wǎng)頁數(shù)據(jù),無需配置即可完成數(shù)據(jù)采集,是業(yè)內(nèi)首家支持三種操作系統(tǒng)(包括Windows、Mac和Linux)的爬蟲軟件。
這是一款真正免費(fèi)的數(shù)據(jù)采集軟件,對(duì)采集結(jié)果導(dǎo)出沒有任何限制,小白用戶也能輕松上手。
采集對(duì)象簡(jiǎn)介:
順企網(wǎng)是深圳市順企網(wǎng)絡(luò)科技有限公司開發(fā)并運(yùn)營的B2B電子商務(wù)平臺(tái)及企業(yè)黃頁平臺(tái)。順企網(wǎng)為企業(yè)提供互聯(lián)網(wǎng)服務(wù),提供全國114企業(yè)黃頁信息查詢服務(wù),企業(yè)產(chǎn)品供應(yīng)、采購、展會(huì)、招聘信息發(fā)布,企業(yè)商鋪建立 ,宗旨是:一心為企業(yè)服務(wù),爭(zhēng)創(chuàng)網(wǎng)絡(luò)湘軍。
采集字段:
銀行名稱、銀行標(biāo)題、主營產(chǎn)品、地址、成立時(shí)間、法人名稱、聯(lián)系人、 聯(lián)系電話、郵箱
功能點(diǎn)目錄:
如何對(duì)采集字段進(jìn)行配置
如何采集列表+詳情頁類型網(wǎng)頁
采集結(jié)果預(yù)覽:
下面我們來詳細(xì)介紹一下如何采集順企網(wǎng)中的企業(yè)信息,我們以杭州商業(yè)銀行黃頁為例,具體步驟如下:
步驟一:下載安裝后羿采集軟件,并注冊(cè)登錄
1、打開后羿采集軟件官網(wǎng),下載并安裝最新版
2、點(diǎn)擊注冊(cè)登錄,注冊(cè)新賬號(hào),然后登錄
【溫馨提示】您可以直接使用此款爬蟲軟件,不需要進(jìn)行注冊(cè),但是匿名賬戶下的任務(wù)在切換到注冊(cè)用戶時(shí)會(huì)丟失,因此建議您注冊(cè)后使用。
后羿采集軟件為神箭手旗下產(chǎn)品,神箭手用戶可直接登錄。
步驟二:新建采集任務(wù)
1、復(fù)制順企網(wǎng)杭州商業(yè)銀行黃頁的網(wǎng)頁地址(需要搜索結(jié)果頁的網(wǎng)址,而不是首頁的網(wǎng)址)
點(diǎn)此了解關(guān)于如何正確地輸入網(wǎng)址。
2、新建智能模式采集任務(wù)
您可以在軟件上直接新建采集任務(wù),也可以通過導(dǎo)入規(guī)則來創(chuàng)建任務(wù)。
點(diǎn)此了解如何導(dǎo)入和導(dǎo)出采集規(guī)則。
步驟三:配置采集規(guī)則
1、設(shè)置提取數(shù)據(jù)字段
在智能模式下,我們輸入網(wǎng)址后軟件即可自動(dòng)識(shí)別出頁面上的數(shù)據(jù)并生成采集結(jié)果,每一類數(shù)據(jù)對(duì)應(yīng)一個(gè)采集字段,我們可以右擊字段進(jìn)行相關(guān)設(shè)置,包括修改字段名稱、增減字段、處理數(shù)據(jù)等。
點(diǎn)此了解如何對(duì)采集字段進(jìn)行配置。
在列表頁上,我們需要采集杭州商業(yè)銀行的銀行名稱、銀行鏈接、主營產(chǎn)品、地址及成立時(shí)間等信息,字段設(shè)置效果如下:
2、使用深入采集功能提取詳情頁數(shù)據(jù)
在列表頁上只展示出了杭州商業(yè)銀行的部分信息,如果需要銀行的法人名稱、聯(lián)系方式等信息,我們需要右擊銀行鏈接使用“深入采集”功能,跳轉(zhuǎn)到詳情頁進(jìn)行采集。
點(diǎn)此深入了解如何采集列表+詳情頁類型網(wǎng)頁。
在詳情頁面我們可以看到法人名稱、聯(lián)系人、聯(lián)系電話以及郵箱等信息,我們可以點(diǎn)擊“添加字段”添加采集字段,字段設(shè)置效果如下:
步驟四:設(shè)置并啟動(dòng)采集任務(wù)
1、設(shè)置采集任務(wù)
完成了采集數(shù)據(jù)添加,我們可以開始啟動(dòng)采集任務(wù)了。在啟動(dòng)之前我們需要對(duì)采集任務(wù)進(jìn)行一些設(shè)置,從而提高采集的穩(wěn)定性和成功率。
點(diǎn)擊“設(shè)置”按鈕,在彈出的運(yùn)行設(shè)置頁面中我們可以進(jìn)行運(yùn)行設(shè)置和防屏蔽設(shè)置,這里我們勾選“跳過繼續(xù)采集”,設(shè)置“2”秒請(qǐng)求等待時(shí)間,勾選“不加載網(wǎng)頁圖片”,防屏蔽設(shè)置就按照系統(tǒng)默認(rèn)設(shè)置,然后點(diǎn)擊保存。
點(diǎn)此深入了解如何對(duì)采集任務(wù)進(jìn)行配置。
2、啟動(dòng)采集任務(wù)
點(diǎn)擊“保存并啟動(dòng)”按鈕,可在彈出的頁面中進(jìn)行一些高級(jí)設(shè)置,包括定時(shí)啟動(dòng)、自動(dòng)入庫和下載圖片,本次示例中未使用到這些功能,直接點(diǎn)擊“啟動(dòng)”運(yùn)行爬蟲工具。
點(diǎn)此深入了解什么是定時(shí)采集。
點(diǎn)此深入了解什么是自動(dòng)入庫。
點(diǎn)此深入了解如何下載圖片。
【溫馨提示】免費(fèi)版本可以使用非周期性定時(shí)采集功能,下載圖片功能是免費(fèi)的。個(gè)人專業(yè)版及以上版本可以使用高級(jí)定時(shí)功能和自動(dòng)入庫功能。
3、運(yùn)行任務(wù)提取數(shù)據(jù)
任務(wù)啟動(dòng)之后便開始自動(dòng)采集數(shù)據(jù),我們從界面上可以直觀的看到程序運(yùn)行過程和采集結(jié)果,采集結(jié)束之后會(huì)有提醒。
步驟五:導(dǎo)出并查看數(shù)據(jù)
數(shù)據(jù)采集完成后,我們可以查看和導(dǎo)出數(shù)據(jù),軟件支持多種導(dǎo)出方式(手動(dòng)導(dǎo)出到本地、手動(dòng)導(dǎo)出到數(shù)據(jù)庫、自動(dòng)發(fā)布到數(shù)據(jù)庫、自動(dòng)發(fā)布到網(wǎng)站)和導(dǎo)出文件的格式(EXCEL、CSV、HTML和TXT),我們選擇自己需要方式和文件類型,點(diǎn)擊“確認(rèn)導(dǎo)出”。
點(diǎn)此深入了解如何查看和清空采集數(shù)據(jù)。
點(diǎn)此深入了解如何導(dǎo)出采集結(jié)果。
【溫馨提示】:所有手動(dòng)導(dǎo)出功能都是免費(fèi)的。個(gè)人專業(yè)版及以上版本可以使用發(fā)布到網(wǎng)站功能。
?
再給您推薦幾個(gè)關(guān)于企業(yè)信息采集的教程:
如何免費(fèi)采集企查查企業(yè)信息
如何采集天眼查企業(yè)列表
如何采集企業(yè)電話和地址信息(中國五金網(wǎng))
轉(zhuǎn)載于:https://my.oschina.net/u/4016971/blog/2872998
總結(jié)
以上是生活随笔為你收集整理的不用写代码也能学会采集海量企业电话及邮箱数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重温SQL——行转列,列转行(转:htt
- 下一篇: java独步寻花,小班语言《江畔独步寻花