Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2
前言:作者(守望者M(jìn)S)在實(shí)際搭建并開發(fā)Nutch的過程中參閱很多中文資料,但內(nèi)容并不詳盡且有錯(cuò)誤,于是在此記錄個(gè)人實(shí)戰(zhàn)過程,糾正一些文章錯(cuò)誤,以詳細(xì)的過程展現(xiàn)一次簡單的二次開發(fā)流程,為初學(xué)者降低門檻。但不能保證完全沒有錯(cuò)誤,如有發(fā)現(xiàn)希望大家指正。
目錄:
Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)1
Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)2
Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)3
Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)4
一、開發(fā)環(huán)境介紹(以我個(gè)人為例):
個(gè)人開發(fā)端:windows Server 2003 + Cygwin + Eclipse3.2
二、具體步驟:
<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)
下載完成后解壓到指定的文件夾。
在開始測試Nutch是否搭建成功之前,請先確保本機(jī)安裝了JDK,并且設(shè)置了正確的JAVA_HOME環(huán)境變量,注意:環(huán)境變量的設(shè)置中一定要將JDK的安裝根目錄設(shè)置為JAVA_HOME,然后再設(shè)置CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib,千萬不要設(shè)置為絕對(duì)目錄,否則在執(zhí)行Nutch命令時(shí)會(huì)出現(xiàn)錯(cuò)誤
,點(diǎn)擊查看詳情
<2>.開始配置Nutch:
第一:修改nutch目錄下的conf子目錄下的兩個(gè)文件:
在nutch-site.xml的configuration下增加一個(gè)http.agent.name節(jié)點(diǎn)(如不修改則不能抓取)
???? <configuration>
??????????? <property>
???????????? <name>http.agent.name</name>
???????????? <value>HD nutch agent</value>
???????????? </property>
????????????? <property>
????????????? <name>http.agent.version</name>
????????????? <value>1.2</value>
?????????????? </property>
????? </configuration>
在crawl-urlfilter.txt中將如下語句改成需要的形式:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/
注:“+”號(hào)前不要有空格
第二:執(zhí)行抓取操作
(1).在Nutch根目錄下新建一個(gè)url.txt文件,其每一行輸入你想要爬去的網(wǎng)站域名。
例如:
http://www.qq.com/
http://www.sina.com.cn/
注:以行為單位,每行輸入一個(gè)域名,且域名格式遵從上述例子,最后要加"/"
接著修改:apache-nutch-1.2-bin.zip\nutch-1.2\conf\nutch-default.xml中內(nèi)容:
<property>
? <name>http.agent.name</name>
? <value>sina</value>
? <description>HTTP 'User-Agent' request header. MUST NOT be empty -
? please set this to a single word uniquely related to your organization.
? NOTE: You should also check other related properties:
?? ?http.robots.agents
?? ?http.agent.description
?? ?http.agent.url
?? ?http.agent.email
?? ?http.agent.version
? and set their values appropriately.
? </description>
</property>
紅色標(biāo)記的地方不能為空,可以隨便寫一個(gè)
解決方法:在cygwin中輸入:export LANG="zh_CN.GBK"
,而后回車
其實(shí)就是設(shè)置下linux的環(huán)境變量
一定要寫:否則出現(xiàn)如下錯(cuò)誤:
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)
(2).打開cygwin,執(zhí)行命令行:
注:作者的Nutch放置在G:/nutch
命令行:cd g:????? (其中g(shù)表示你的apache-nutch-1.2-bin的存放位置)
apache-nutch-1.2-bin重命名為:nutch
命令行: cd nutch??????????
?
命令行: bin/nutch crawl url.txt –dir localweb –depth 3 –threads 4
注:該命令行中的參數(shù)請自行學(xué)習(xí)參考,這里不多做解釋。
此時(shí),Nutch就開始執(zhí)行抓取操作了,配置成功。
經(jīng)過以上的步驟,后端的操作基本完畢,此時(shí)可以在cygwin中到nutch根目錄下
執(zhí)行下面命令進(jìn)行簡單的查詢測試:
bin/nutch org.apache.nutch.searcher.NutchBean 關(guān)鍵字
<3>Tomcat的配置
(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;
(2).將nutch目錄的nutch-1.2.war復(fù)制到tomcat\webapps下,并將其改名為ROOT.war;
???? 如果Tomcat正在運(yùn)行,那么ROOT.war會(huì)自動(dòng)生成ROOT文件夾;如果沒有運(yùn)行,那么啟動(dòng)Tomcat之后,會(huì)自動(dòng)生成ROOT文件夾。
(3.)打開ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式:
??? <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>
? <!-- Put site-specific property overrides in this file. -->
? <nutch-conf>
<property>
<name>searcher.dir</name>
<value>g:/nutch/localweb</value>
</property>
</nutch-conf>
? 其中的"<value>g:/nutch/localweb</value>"部分,應(yīng)根據(jù)自己的設(shè)置進(jìn)行相應(yīng)修改,是nutch抓取結(jié)果存放目錄。
啟動(dòng)Tomcat,打開瀏覽器在地址欄中輸入:http://localhost:8080/,即可看見nutch的搜索頁面。
至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中導(dǎo)入并調(diào)試Nutch,
請點(diǎn)擊查看文章
總結(jié)
以上是生活随笔為你收集整理的Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 年利率24%怎么算
- 下一篇: 蚂蚁借呗有什么风险吗