當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

nutch开发(二)

發(fā)布時(shí)間：2024/9/19 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 nutch开发(二) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

nutch開發(fā)(二)

文章目錄

- nutch開發(fā)(二)
- - - 開發(fā)環(huán)境
  - 1.爬取后生成的目錄結(jié)構(gòu)
  - - crawldb
    - linkdb
    - segments
  - 2.閱讀TestCrawlDbMerger
  - - createCrawlDb
    - 讀取crawldb
  - 3.關(guān)于索引的建立
  - 4.創(chuàng)建一個(gè)一步式的爬蟲啟動(dòng)類
  - - 創(chuàng)建啟動(dòng)類
    - 關(guān)于如何配置solr服務(wù)器的位置
  - 5.Crawler部分代碼講解
  - - 核心類
    - 核心函數(shù)

開發(fā)環(huán)境

Linux，Ubuntu20.04LST
IDEA
Nutch1.18
Solr8.11

轉(zhuǎn)載請(qǐng)聲明出處！！！By 鴨梨的藥丸哥

1.爬取后生成的目錄結(jié)構(gòu)

crawldb

crawldb目錄下面存放下載的URL,以及下載的日期、過(guò)期時(shí)間

linkdb

linkdb目錄存放URL的關(guān)聯(lián)關(guān)系，是下載完成后分析時(shí)創(chuàng)建的

segments

segments目錄存儲(chǔ)抓取的頁(yè)面，這些頁(yè)面是根據(jù)層級(jí)關(guān)系分片的。

“crawl_generate” 生成要獲取的一組URL的名字，既生成待下載的URL的集合

“crawl_fetch” 包含獲取每個(gè)URL的狀態(tài)

”content“ 包含從每個(gè)URL檢索的原始內(nèi)容

“parse_text” 包含每個(gè)URL的解析文本（存放每個(gè)解析過(guò)的URL的文本內(nèi)容）

“parse_data” 包含從每個(gè)URL分析的外部鏈接和元數(shù)據(jù)

“crawl_parse” 包含用于更新crawldb的outlink URL（外部鏈接庫(kù)）

這里給一張網(wǎng)絡(luò)圖片，這圖片清晰滴描述了幾個(gè)目錄和爬取的關(guān)系

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-1zgfSJou-1644982714814)(F:\筆記文檔\筆記圖片\3.jpg)]

2.閱讀TestCrawlDbMerger

閱讀test包下面的org.apache.nutch.crawl.TestCrawlDbMerger，是為了更好理解CrawlDb是什么東東。

createCrawlDb

從createCrawlDb可以看出CrawlDb里面的part-r-00000文件夾里面的文件是Hadoop的SequenceFile格式數(shù)據(jù)，其中data和index組合成MapFile，MapFile是基于SequenceFile實(shí)現(xiàn)的。

SequenceFile 是 Hadoop 的一個(gè)重要數(shù)據(jù)文件類型，它提供key-value的存儲(chǔ)，但與傳統(tǒng)key-value存儲(chǔ)（比如hash表，btree）不同的是，它是 appendonly的，于是你不能對(duì)已存在的key進(jìn)行寫操作。每一個(gè)key-value記錄如下圖，不僅保存了key，value值，也保存了他們的長(zhǎng)度。
MapFile – 一個(gè)key-value 對(duì)應(yīng)的查找數(shù)據(jù)結(jié)構(gòu)，由數(shù)據(jù)文件/data 和索引文件 /index 組成，數(shù)據(jù)文件中包含所有需要存儲(chǔ)的key-value對(duì)，按key的順序排列。索引文件包含一部分key值，用以指向數(shù)據(jù)文件的關(guān)鍵位置。

private void createCrawlDb(Configuration config, FileSystem fs, Path crawldb,TreeSet<String> init, CrawlDatum cd) throws Exception {LOG.debug("* creating crawldb: " + crawldb);Path dir = new Path(crawldb, CrawlDb.CURRENT_NAME);//可以看出文件夾里面的文件是SequenceFile格式//其中整個(gè)文件夾是MapFile格式，index是索引文件，data是數(shù)據(jù)文件Option wKeyOpt = MapFile.Writer.keyClass(Text.class);org.apache.hadoop.io.SequenceFile.Writer.Option wValueOpt = SequenceFile.Writer.valueClass(CrawlDatum.class);//生成MapFileMapFile.Writer writer = new MapFile.Writer(config, new Path(dir,"part-r-00000"), wKeyOpt, wValueOpt);Iterator<String> it = init.iterator();while (it.hasNext()) {String key = it.next();//這里看出索引是以u(píng)rl進(jìn)行索引的writer.append(new Text(key), cd);}writer.close();}

讀取crawldb

參試讀取crawlDb，前面說(shuō)過(guò)crawldb里面的文件是SequenceFile文件格式的，所以我們用SequenceFile.Reader讀取data文件，前面說(shuō)過(guò)這個(gè)文件夾是MapFile數(shù)據(jù)格式，由數(shù)據(jù)文件/data 和索引文件 /index 組成。

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.SequenceFile; import org.apache.hadoop.io.Text; import org.junit.Test; import java.io.IOException;/*** @author liangwy*/ public class TestCrawlDbReader {@Testpublic void readDbTest() throws IOException {Configuration conf=NutchConfiguration.create();Path dataPath=new Path("/home/liangwy/IdeaProjects/apache-nutch-1.18/myNutch/crawldb/current/part-r-00000/data");FileSystem fs=dataPath.getFileSystem(conf);SequenceFile.Reader reader=new SequenceFile.Reader(fs,dataPath,conf);Text key=new Text();CrawlDatum value=new CrawlDatum();while(reader.next(key,value)){System.out.println("key:"+key);System.out.println("value:"+value);}reader.close();} }

結(jié)果

key:http://nutch.apache.org/ value:Version: 7 Status: 5 (db_redir_perm) Fetch time: Sun Feb 13 20:29:40 CST 2022 Modified time: Fri Jan 14 20:29:40 CST 2022 Retries since fetch: 0 Retry interval: 2592000 seconds (30 days) Score: 1.0 Signature: null Metadata: _pst_=moved(12), lastModified=0: https://nutch.apache.org/_rs_=339Content-Type=application/octet-streamnutch.protocol.code=301

3.關(guān)于索引的建立

Nutch把全文檢索功能獨(dú)立出去后，已經(jīng)搖身一變成網(wǎng)絡(luò)爬蟲了，主要是爬取功能，關(guān)于index的功能已經(jīng)交個(gè)其他全文檢索服務(wù)器實(shí)現(xiàn)了，如solr等。

其中，Nutch1.18使用IndexingJob這個(gè)啟動(dòng)類去實(shí)現(xiàn)索引功能，而IndexingJob背后正在實(shí)現(xiàn)去服務(wù)器建立索引的實(shí)現(xiàn)是各種插件，如indexer-solr插件，所以Nutch才能支持多種全文檢索服務(wù)器。

索引的建立可以通過(guò)以下代碼實(shí)現(xiàn)，至于具體的全部代碼我后面會(huì)給出，并將代碼發(fā)到github上面。

// index FileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs)); IndexingJob indexer = new IndexingJob(getConf()); indexer.index(crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)),false);

4.創(chuàng)建一個(gè)一步式的爬蟲啟動(dòng)類

創(chuàng)建啟動(dòng)類

下面的Crawler可以實(shí)現(xiàn)一整個(gè)爬取流程，并在solr服務(wù)器上面建立索引。

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapred.JobConf; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; import org.apache.nutch.fetcher.Fetcher; import org.apache.nutch.indexer.CleaningJob; import org.apache.nutch.indexer.IndexingJob; import org.apache.nutch.parse.ParseSegment; import org.apache.nutch.util.HadoopFSUtil; import org.apache.nutch.util.NutchConfiguration; import org.apache.nutch.util.NutchTool; import org.slf4j.Logger; import org.slf4j.LoggerFactory;import javax.xml.crypto.Data; import java.lang.invoke.MethodHandles; import java.text.SimpleDateFormat; import java.util.Arrays; import java.util.Date; import java.util.Map;/*** @author liangwy*/ public class Crawler extends NutchTool implements Tool {private static final Logger LOG = LoggerFactory.getLogger(MethodHandles.lookup().lookupClass());private Configuration conf;@Overridepublic Configuration getConf() {if (conf == null){conf = NutchConfiguration.create();}return conf;}public String getDate(){return new SimpleDateFormat("yyyyMMddHHmmss").format(new Date(System.currentTimeMillis()));}/*** ToolRunner.run()最終會(huì)運(yùn)行這個(gè)函數(shù)* 還有,下面的寫法在Nutch1.18能運(yùn)行,其他版本不一定能運(yùn)行,* 比如在dedup 命令從 Nutch 1.8 開始替換 SOLR dedup 命令，用法上也有所不同。* 應(yīng)該在建立 Solr 索引之前執(zhí)行，以保證 URL在 crawldb 數(shù)據(jù)庫(kù)和 Solr 索引中的唯一性。* @param strings* @return* @throws Exception*/@Overridepublic int run(String[] strings) throws Exception {/*種子所在文件夾*/Path rootUrlDir = new Path("/home/liangwy/IdeaProjects/apache-nutch-1.18/urls");/*存儲(chǔ)爬取信息的文件夾*/Path dir = new Path("/home/liangwy/IdeaProjects/apache-nutch-1.18","crawl-" + getDate());/*爬取線程個(gè)數(shù)*/int threads = 50;/*廣度遍歷時(shí)爬取的深度，即廣度遍歷樹的層數(shù)*/int depth = 2;/*每次只爬開頭的前10條*/long topN = 10;JobConf job = new JobConf(getConf());FileSystem fs = FileSystem.get(job);if (LOG.isInfoEnabled()) {LOG.info("crawl started in: " + dir);LOG.info("rootUrlDir = " + rootUrlDir);LOG.info("threads = " + threads);LOG.info("depth = " + depth);if (topN != Long.MAX_VALUE)LOG.info("topN = " + topN);}/*目錄*/Path crawlDb = new Path(dir + "/crawldb");Path linkDb = new Path(dir + "/linkdb");Path segments = new Path(dir + "/segments");/*各種功能啟動(dòng)類*/Injector injector = new Injector(getConf());Generator generator = new Generator(getConf());Fetcher fetcher = new Fetcher(getConf());ParseSegment parseSegment = new ParseSegment(getConf());CrawlDb crawlDbTool = new CrawlDb(getConf());LinkDb linkDbTool = new LinkDb(getConf());// initialize crawlDbinjector.inject(crawlDb, rootUrlDir);//爬取次數(shù)int i;for (i = 0; i < depth; i++) {// generate new segmentPath[] segs = generator.generate(crawlDb, segments, -1, topN, System.currentTimeMillis());if (segs == null) {LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");break;}fetcher.fetch(segs[0], threads); // fetch itif (!Fetcher.isParsing(job)) {parseSegment.parse(segs[0]); // parse it, if needed}crawlDbTool.update(crawlDb, segs, true, true); // update crawldb}/*Nutch1.18里面沒有SolrDeleteDuplicates,后來(lái)查資料發(fā)現(xiàn),dedup 命令從 Nutch 1.8 開始替換 SOLR dedup 命令，去重操作改成了在建立索引前進(jìn)行去重了*///去重DeduplicationJob dedup = new DeduplicationJob();dedup.setConf(getConf());//腳本參數(shù)String[] dedupArgs = new String[]{crawlDb.toString()};//貌似沒有封裝過(guò)的去重方法,這里就調(diào)用run函數(shù)了dedup.run(dedupArgs);// invert linksif (i > 0) {linkDbTool.invert(linkDb, segments, true, true, false); // invert links// indexFileStatus[] fstats = fs.listStatus(segments, HadoopFSUtil.getPassDirectoriesFilter(fs));IndexingJob indexer = new IndexingJob(getConf());indexer.index(crawlDb, linkDb,Arrays.asList(HadoopFSUtil.getPaths(fstats)),false);//cleanCleaningJob cleaningJob = new CleaningJob();cleaningJob.setConf(getConf());cleaningJob.delete(crawlDb.toString(),false);} else {LOG.warn("No URLs to fetch - check your seed list and URL filters.");}if (LOG.isInfoEnabled()) { LOG.info("crawl finished: " + dir); }return 0;}/*** Used by the Nutch REST service* @param args* @param crawlId* @return* @throws Exception*/@Overridepublic Map<String, Object> run(Map<String, Object> args, String crawlId) throws Exception {return null;}public static void main(String[] args) throws Exception {int res = ToolRunner.run(NutchConfiguration.create(), new Crawler(), args);System.exit(res);}}

關(guān)于如何配置solr服務(wù)器的位置

在conf/目錄下面，有一個(gè)index-writers.xml的配置文件，找到indexer_solr_1，里面有配置slor服務(wù)器的位置和一些索引建立時(shí)的配置信息。

5.Crawler部分代碼講解

核心類

Injector injector = new Injector(getConf()); //inject功能 Generator generator = new Generator(getConf()); //generate功能 Fetcher fetcher = new Fetcher(getConf()); //網(wǎng)頁(yè)fetch ParseSegment parseSegment = new ParseSegment(getConf()); //parse CrawlDb crawlDbTool = new CrawlDb(getConf()); //update LinkDb linkDbTool = new LinkDb(getConf()); //Invert linksDeduplicationJob dedup = new DeduplicationJob(); // DeleteDuplicates IndexingJob indexer = new IndexingJob(getConf()); // Index IndexMerger CleaningJob cleaningJob = new CleaningJob(); // 去除401,302的index

核心函數(shù)

//注入urls injector.inject(crawlDb, rootUrlDir); //創(chuàng)建新的segments，在新的segments里面創(chuàng)建抓取列表crawl_generate generator.generate(crawlDb, segments, -1, topN, System.currentTimeMillis()); //給最新的segments進(jìn)行網(wǎng)頁(yè)的抓取，生成"crawl_fetch"，"content" fetcher.fetch(segs[0], threads);//解析最新的segments的爬取內(nèi)容，生成“parse_text” “parse_data” “crawl_parse” parseSegment.parse(segs[0]);//跟新crawldb crawlDbTool.update(crawlDb, segs, true, true);//去重，NUTCH1.8之后去重工作放在了index之前 dedup.run(dedupArgs);//鏈接反轉(zhuǎn)，建立索引前的一步 linkDbTool.invert(linkDb, segments, true, true, false);//添加索引，去哪個(gè)索引服務(wù)器添加跟你配置的index-writers.xml有關(guān) indexer.index(crawlDb, linkDb,Arrays.asList(HadoopFSUtil.getPaths(fstats)),false);//清除302，401等網(wǎng)頁(yè)，這里的清除操作是添加索引之后 cleaningJob.delete(crawlDb.toString(),false);

總結(jié)

以上是生活随笔為你收集整理的nutch开发(二)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

Nutch

上一篇： Nomad 推出车用 MagSafe 配
下一篇： Nutch开发（三）