NUTCH的安装与测试
1.Nutch簡介
Apache Nutch is ahighly extensible and scalable open source web crawler softwareproject—wikipedia。
Nutch是一個開源Java實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
Nutch的組成:爬蟲crawler和查詢searcher。Crawler主要用于從網絡上抓取網頁并為這些網頁建立索引。Searcher主要利用這些索引檢索用戶的查找關鍵詞來產生查找結果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。Crawler和Searcher兩部分盡量分開的目的主要是為了使兩部分可以分布式配置在硬件平臺上,例如將Crawler和Searcher分別放在兩個主機上,這樣可以提升性能。
2.Nutch安裝
2.1安裝虛擬機與Ubuntu(略)
2.2安裝JDK與配置環境
(1) ?sudo apt-get update
(2) sudo apt-getinstall default-jdk
(3)配置環境變量: sudo gedit ~/.bashrc???
進入編輯框,在文件的末尾添加四行代碼:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH |
(4)輸入完成后,點擊右上角保存,然后關閉
執行命令:
source ~/.bashrc |
(5)驗證環境配置結果,出現下圖結果,表示配置成功
(6)注意:不可以省略編輯bashrc這一步,如果省略掉,會影響后面的程序運行。
2.3Nutch的下載/編譯/配置
(1)下載:首先安裝svn工具,然后通過svn下載代碼,本文采用nuthc的版本為1.7。下載完成后,如圖所示。
sudo apt install subversion svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.7 |
?
(2)編譯:
?????? 修改文件:build.xml
找到這一塊,加入這一行
<classpath><fileset dir="lib/" includes="sonar*.jar" /></classpath> |
然后將一個jar包加入lib文件夾中
編譯需要Ant,所以首先要安裝Ant。輸入ant開始編譯
sudo apt install ant cd release-1.7 ant |
?
編譯過程可能會出現問題:
大概是源中有的包缺失了,可以選擇修改源。即更改value后面的網址就行了。
不過這種辦法試過之后可能依然不行,那么問題的關鍵來了。你需要換個網絡。這和我軟微的網絡有的時候沒法訪問百度文庫是一樣的。本人在嘗試過程中,斷掉了無線網,用手機開了熱點,一次就編譯成功了。
(3)配置:主要配置conf文件夾下的這兩個文件
nutch-site.xml?? 在value標簽內填入任意字符即可
nutch-default.xml
2.4抓取網頁
1. 進入runtime->local目錄
命令: ?cd runtime/local
2. 建一個目錄保存需要抓取的URL信息
mkdir urls vi urls/url.txt |
?
將需要抓取的URL寫入url.txt中:
3. 使用Crawl命令抓取網頁
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 & |
?
runtime/local文件夾下的nohup.out存儲爬取結果
總結
以上是生活随笔為你收集整理的NUTCH的安装与测试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tampermonkey参数
- 下一篇: Leetcode 21:Merge Tw