日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java房源信息管理的代码_crawler4j源码学习(2):Ziroom租房网房源信息采集爬虫

發(fā)布時(shí)間:2023/12/19 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java房源信息管理的代码_crawler4j源码学习(2):Ziroom租房网房源信息采集爬虫 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

/*** @date 2016年8月20日 下午6:13:24

*@version*@sinceJDK 1.8*/

public class ZiroomCrawler extendsWebCrawler {/**爬取匹配原則*/

private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g|ico"

+ "|png|tiff?|mid|mp2|mp3|mp4" + "|wav|avi|mov|mpeg|ram|m4v|pdf" + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");/**爬取數(shù)據(jù)保存文件路徑*/

private final static String DATA_PATH = "data/crawl/ziroom.csv";/**爬取link文件路徑*/

private final static String LINK_PATH = "data/crawl/link.csv";//private static final Logger logger =//LoggerFactory.getLogger(ZiroomCrawler.class);

private final static String URL_PREFIX = "http://sh.ziroom.com/z/nl/";private finalFile fLinks;private finalFile fDatas;privateCsvWriter csvLinks;privateCsvWriter csvDatas;/*** You should implement this function to specify whether the given url

* should be crawled or not (based on your crawling logic).*/ZiroomCrawlStat myCrawlStat;public ZiroomCrawler() throwsIOException {

myCrawlStat= newZiroomCrawlStat();

fLinks= newFile(DATA_PATH);

fDatas= newFile(LINK_PATH);if(fLinks.isFile()) {

fLinks.delete();

}if(fDatas.isFile()) {

fDatas.delete();

}

csvDatas= new CsvWriter(new FileWriter(fDatas, true), ',');

csvDatas.write("請(qǐng)求路徑");

csvDatas.endRecord();

csvDatas.close();

csvLinks= new CsvWriter(new FileWriter(fLinks, true), ',');

csvLinks.write("圖片");

csvLinks.write("價(jià)格");

csvLinks.write("地址");

csvLinks.write("說明");

csvLinks.endRecord();

csvLinks.close();

}public voiddumpMyData() {final int id =getMyId();//You can configure the log to output to file

logger.info("Crawler {} > Processed Pages: {}", id, myCrawlStat.getTotalProcessedPages());

logger.info("Crawler {} > Total Links Found: {}", id, myCrawlStat.getTotalLinks());

logger.info("Crawler {} > Total Text Size: {}", id, myCrawlStat.getTotalTextSize());

}

@OverridepublicObject getMyLocalData() {returnmyCrawlStat;

}

@Overridepublic voidonBeforeExit() {

dumpMyData();

}/** 這個(gè)方法決定了要抓取的URL及其內(nèi)容,例子中只允許抓取“http://sh.ziroom.com/z/nl/”這個(gè)域的頁面,

* 不允許.css、.js和多媒體等文件

*

* @see edu.uci.ics.crawler4j.crawler.WebCrawler#shouldVisit(edu.uci.ics.

* crawler4j.crawler.Page, edu.uci.ics.crawler4j.url.WebURL)*/@Overridepublic booleanshouldVisit(Page referringPage, WebURL url) {final String href =url.getURL().toLowerCase();if (FILTERS.matcher(href).matches() || !href.startsWith(URL_PREFIX)) {return false;

}return true;

}/** 當(dāng)URL下載完成會(huì)調(diào)用這個(gè)方法。你可以輕松獲取下載頁面的url, 文本, 鏈接, html,和唯一id等內(nèi)容。

*

* @see

* edu.uci.ics.crawler4j.crawler.WebCrawler#visit(edu.uci.ics.crawler4j.

* crawler.Page)*/@Overridepublic voidvisit(Page page) {final String url =page.getWebURL().getURL();

logger.info("爬取路徑:" +url);

myCrawlStat.incProcessedPages();if (page.getParseData() instanceofHtmlParseData) {final HtmlParseData htmlParseData =(HtmlParseData) page.getParseData();final Set links =htmlParseData.getOutgoingUrls();try{

linkToCsv(links);

}catch (finalIOException e2) {//TODO Auto-generated catch block

e2.printStackTrace();

}

myCrawlStat.incTotalLinks(links.size());try{

myCrawlStat.incTotalTextSize(htmlParseData.getText().getBytes("UTF-8").length);

}catch (finalUnsupportedEncodingException e1) {//TODO Auto-generated catch block

e1.printStackTrace();

}final String html =htmlParseData.getHtml();final Document doc =Jsoup.parse(html);final Elements contents = doc.select("li[class=clearfix]");for (finalElement c : contents) {//圖片

final String img = c.select(".img img").first().attr("src");

logger.debug("圖片:" +img);//地址

final Element txt = c.select("div[class=txt]").first();final String arr1 = txt.select("h3 a").first().text();final String arr2 = txt.select("h4 a").first().text();final String arr3 = txt.select("div[class=detail]").first().text();final String arr = arr1.concat(arr1 + ",").concat(arr2 + ",").concat(arr3);

logger.debug("地址:" +arr);//說明

final String rank = txt.select("p").first().text();

logger.debug("說明:" +rank);//價(jià)格

final String pirce = c.select("p[class=price]").first().text();try{

csvLinks= new CsvWriter(new FileWriter(fLinks, true), ',');

csvLinks.write(img);

csvLinks.write(pirce);

csvLinks.write(arr);

csvLinks.write(rank);

csvLinks.endRecord();

csvLinks.flush();

csvLinks.close();

}catch (finalIOException e) {

e.printStackTrace();

}

}

}

}private void linkToCsv(Set links) throwsIOException {

csvDatas= new CsvWriter(new FileWriter(fDatas, true), ',');for (finalWebURL webURL : links) {

csvDatas.write(webURL.getURL());

}

csvDatas.flush();

csvDatas.endRecord();

csvDatas.close();

}

}

總結(jié)

以上是生活随笔為你收集整理的java房源信息管理的代码_crawler4j源码学习(2):Ziroom租房网房源信息采集爬虫的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品自拍区 | 中文一区视频 | 亚洲欧美国产日韩精品 | 久久99激情| 国产成人精品无码免费看夜聊软件 | 亚洲精品在线不卡 | 亚洲自拍偷拍网站 | 91免费网站 | 久久亚洲成人 | 秋霞午夜影院 | 国产激情久久久久 | 黄色片子看看 | 久久有精品 | 久久久久亚洲av片无码下载蜜桃 | 国产日韩av一区二区 | 日本亲子乱子伦xxxx | 中文字幕3页| 日韩久久久久久久久久 | 日本午夜一区二区 | 日韩黄色av | 欧美一区二区免费电影 | 午夜精品一区二区三 | 日韩中文字幕电影 | 免费成人国产 | 欧洲av无码放荡人妇网站 | 五月天国产视频 | 欧美肥妇bwbwbwbxx | 色哟哟免费在线观看 | 男人午夜天堂 | 国产综合视频在线观看 | 亚洲色图日韩精品 | 美女被男人c | 青久草视频 | 国内精品视频在线 | 色综合色综合网色综合 | 四虎激情| 男女av网站 | 伦在线| 麻豆传媒在线播放 | 欧美日韩激情一区二区 | 极品尤物在线观看 | 九九精品在线播放 | 麻豆国产在线视频 | 欧美熟妇另类久久久久久不卡 | 森泽佳奈av | 国产精品午夜未成人免费观看 | caoprom超碰 | 免费av网站在线播放 | 亚洲综合网在线 | 欧美自偷自拍 | 成人久久久精品国产乱码一区二区 | 成人网站在线进入爽爽爽 | 美女操出白浆 | 欧美日韩黄 | 天天干天天色天天射 | 国产成人精品国内自产拍免费看 | 自拍偷拍欧美亚洲 | 91不卡视频| 日韩高清中文字幕 | 丰满的人妻hd高清日本 | 亚洲视频自拍 | 久久精品国产亚洲7777 | 一级片视频免费观看 | 国产午夜精品福利 | 国产搞逼视频 | 一起草最新网址 | wwwxxxx国产 | 中文在线观看免费 | 日韩高清精品免费观看 | 午夜特片网 | 国产成人a亚洲精品 | 奶水喷溅虐奶乳奴h文 | 日韩高清一级片 | 少妇被躁爽到高潮无码文 | 免费视频91 | 国产午夜视频在线观看 | 在线观看黄色动漫 | 中文字幕88| 超碰97人人草 | 国产精选91 | 中文字幕在线精品 | av三级在线播放 | 超碰成人在线免费观看 | 欧美乱淫视频 | 亚洲人精品午夜射精日韩 | julia一区二区 | 不卡av免费观看 | 操操操爽爽爽 | 韩国日本中文字幕 | 久久国产精品免费看 | 绿色地狱在线观看 | 91色交 | 伊人手机视频 | 欧美特级黄 | 夜夜骑天天操 | av色片| 国产电影一区二区三区爱妃记 | 制服丝袜先锋影音 | 日韩xx视频 |