當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NUTCH的安装与测试

發布時間：2025/3/19 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 NUTCH的安装与测试小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1．Nutch簡介

Apache Nutch is ahighly extensible and scalable open source web crawler softwareproject—wikipedia。

Nutch是一個開源Java實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

Nutch的組成：爬蟲crawler和查詢searcher。Crawler主要用于從網絡上抓取網頁并為這些網頁建立索引。Searcher主要利用這些索引檢索用戶的查找關鍵詞來產生查找結果。兩者之間的接口是索引，所以除去索引部分，兩者之間的耦合度很低。Crawler和Searcher兩部分盡量分開的目的主要是為了使兩部分可以分布式配置在硬件平臺上，例如將Crawler和Searcher分別放在兩個主機上，這樣可以提升性能。

2.Nutch安裝

2.1安裝虛擬機與Ubuntu（略）

2.2安裝JDK與配置環境

(1) ?sudo apt-get update

(2) sudo apt-getinstall default-jdk

(3)配置環境變量： sudo gedit ~/.bashrc???

進入編輯框，在文件的末尾添加四行代碼：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

（4）輸入完成后，點擊右上角保存，然后關閉

執行命令：

source ~/.bashrc

（5）驗證環境配置結果，出現下圖結果，表示配置成功

（6）注意：不可以省略編輯bashrc這一步，如果省略掉，會影響后面的程序運行。

2.3Nutch的下載/編譯/配置

（1）下載：首先安裝svn工具，然后通過svn下載代碼，本文采用nuthc的版本為1.7。下載完成后，如圖所示。

sudo apt install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.7

（2）編譯：

?????? 修改文件：build.xml

找到這一塊，加入這一行

然后將一個jar包加入lib文件夾中

編譯需要Ant,所以首先要安裝Ant。輸入ant開始編譯

sudo apt install ant

cd release-1.7

ant

編譯過程可能會出現問題：

大概是源中有的包缺失了，可以選擇修改源。即更改value后面的網址就行了。

不過這種辦法試過之后可能依然不行，那么問題的關鍵來了。你需要換個網絡。這和我軟微的網絡有的時候沒法訪問百度文庫是一樣的。本人在嘗試過程中，斷掉了無線網，用手機開了熱點，一次就編譯成功了。

（3）配置：主要配置conf文件夾下的這兩個文件

nutch-site.xml?? 在value標簽內填入任意字符即可

nutch-default.xml

2.4抓取網頁

1. 進入runtime->local目錄

命令： ?cd runtime/local

2. 建一個目錄保存需要抓取的URL信息

mkdir urls

vi urls/url.txt

將需要抓取的URL寫入url.txt中：

3. 使用Crawl命令抓取網頁

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

runtime/local文件夾下的nohup.out存儲爬取結果

總結

以上是生活随笔為你收集整理的NUTCH的安装与测试的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

测试
Nutch

上一篇： tampermonkey参数
下一篇： Leetcode 21:Merge Tw