日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2

發(fā)布時(shí)間:2024/9/27 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言:作者(守望者M(jìn)S)在實(shí)際搭建并開發(fā)Nutch的過程中參閱很多中文資料,但內(nèi)容并不詳盡且有錯(cuò)誤,于是在此記錄個(gè)人實(shí)戰(zhàn)過程,糾正一些文章錯(cuò)誤,以詳細(xì)的過程展現(xiàn)一次簡單的二次開發(fā)流程,為初學(xué)者降低門檻。但不能保證完全沒有錯(cuò)誤,如有發(fā)現(xiàn)希望大家指正。

目錄:

Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)1

Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)2

Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)3

Cygwin,Nutch安裝配置,檢驗(yàn)是否正確(對(duì)網(wǎng)友守望者博客的修改---在此感謝守望者)4



一、開發(fā)環(huán)境介紹(以我個(gè)人為例):

個(gè)人開發(fā)端:windows Server 2003 + Cygwin + Eclipse3.2

二、具體步驟:

<1>.下載nutch1.2(http://labs.renren.com/apache-mirror//nutch/)

下載完成后解壓到指定的文件夾。

在開始測試Nutch是否搭建成功之前,請先確保本機(jī)安裝了JDK,并且設(shè)置了正確的JAVA_HOME環(huán)境變量,注意:環(huán)境變量的設(shè)置中一定要將JDK的安裝根目錄設(shè)置為JAVA_HOME,然后再設(shè)置CLASSPATH,PATH,即:%JAVA_HOME%/bin,%JAVA_HOME%/lib,千萬不要設(shè)置為絕對(duì)目錄,否則在執(zhí)行Nutch命令時(shí)會(huì)出現(xiàn)錯(cuò)誤

,點(diǎn)擊查看詳情

<2>.開始配置Nutch:

第一:修改nutch目錄下的conf子目錄下的兩個(gè)文件:

在nutch-site.xml的configuration下增加一個(gè)http.agent.name節(jié)點(diǎn)(如不修改則不能抓取)

???? <configuration>

??????????? <property>

???????????? <name>http.agent.name</name>

???????????? <value>HD nutch agent</value>

???????????? </property>

????????????? <property>

????????????? <name>http.agent.version</name>

????????????? <value>1.2</value>

?????????????? </property>

????? </configuration>

在crawl-urlfilter.txt中將如下語句改成需要的形式:

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com.cn/
+^http://([a-z0-9]*\.)*cn/
+^http://([a-z0-9]*\.)*com/

注:“+”號(hào)前不要有空格

第二:執(zhí)行抓取操作

(1).在Nutch根目錄下新建一個(gè)url.txt文件,其每一行輸入你想要爬去的網(wǎng)站域名。

例如:

http://www.qq.com/

http://www.sina.com.cn/

注:以行為單位,每行輸入一個(gè)域名,且域名格式遵從上述例子,最后要加"/"

接著修改:apache-nutch-1.2-bin.zip\nutch-1.2\conf\nutch-default.xml中內(nèi)容:

<property>
? <name>http.agent.name</name>
? <value>sina</value>
? <description>HTTP 'User-Agent' request header. MUST NOT be empty -
? please set this to a single word uniquely related to your organization.

? NOTE: You should also check other related properties:

?? ?http.robots.agents
?? ?http.agent.description
?? ?http.agent.url
?? ?http.agent.email
?? ?http.agent.version

? and set their values appropriately.

? </description>
</property>

紅色標(biāo)記的地方不能為空,可以隨便寫一個(gè)


解決方法:在cygwin中輸入:export LANG="zh_CN.GBK"
,而后回車
其實(shí)就是設(shè)置下linux的環(huán)境變量

一定要寫:否則出現(xiàn)如下錯(cuò)誤:

Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:124)

(2).打開cygwin,執(zhí)行命令行:

注:作者的Nutch放置在G:/nutch

命令行:cd g:????? (其中g(shù)表示你的apache-nutch-1.2-bin的存放位置)

apache-nutch-1.2-bin重命名為:nutch

命令行: cd nutch??????????

?

命令行: bin/nutch crawl url.txt –dir localweb –depth 3 –threads 4

注:該命令行中的參數(shù)請自行學(xué)習(xí)參考,這里不多做解釋。

此時(shí),Nutch就開始執(zhí)行抓取操作了,配置成功。

經(jīng)過以上的步驟,后端的操作基本完畢,此時(shí)可以在cygwin中到nutch根目錄下

執(zhí)行下面命令進(jìn)行簡單的查詢測試:

bin/nutch org.apache.nutch.searcher.NutchBean 關(guān)鍵字

<3>Tomcat的配置

(1).將tomcat安裝目錄下的\webapps下的ROOT刪除;

(2).將nutch目錄的nutch-1.2.war復(fù)制到tomcat\webapps下,并將其改名為ROOT.war;

???? 如果Tomcat正在運(yùn)行,那么ROOT.war會(huì)自動(dòng)生成ROOT文件夾;如果沒有運(yùn)行,那么啟動(dòng)Tomcat之后,會(huì)自動(dòng)生成ROOT文件夾。

(3.)打開ROOT\WEB-INF\classes下的nutch-site.xml文件,修改成如下形式:

??? <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

? <!-- Put site-specific property overrides in this file. -->

? <nutch-conf>

   <property>

    <name>searcher.dir</name>

    <value>g:/nutch/localweb</value>

   </property>

  </nutch-conf>

? 其中的"<value>g:/nutch/localweb</value>"部分,應(yīng)根據(jù)自己的設(shè)置進(jìn)行相應(yīng)修改,是nutch抓取結(jié)果存放目錄。

啟動(dòng)Tomcat,打開瀏覽器在地址欄中輸入:http://localhost:8080/,即可看見nutch的搜索頁面。

至此,Nutch的簡單配置完畢,接下來說說如何在eclipse中導(dǎo)入并調(diào)試Nutch,

請點(diǎn)擊查看文章




總結(jié)

以上是生活随笔為你收集整理的Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。