ラベル nutch の投稿を表示しています。 すべての投稿を表示
ラベル nutch の投稿を表示しています。 すべての投稿を表示

2009年5月11日月曜日

nutch導入の途中

nutch導入の経緯をメモメモ。

nutchをダウンロードしてくる。

cd /usr/local
wget http://www.meisei-u.ac.jp/mirror/apache/dist/lucene/nutch/nutch-0.9.tar.gz

tar zxvf /tmp/nutch-0.9.1.tar.gz
cd nutch-0.8.1
export NUTCH_JAVA_HOME=/usr/java/jdk1.6.0_13

echo "http://talftp.net/wp/" > urls/nutch

vi conf/crawl-urlfilter.txtを開いて

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

+^http://talftp.net/wp/
に変更する。

vi conf/nutch-site.xmlを開いて

<configuration>
<property>
<name>http.agent.name</name>
<value>mynutchagent</value>
</property>
<property>
<name>http.agent.description</name>
<value>mynutchagent</value>
</property>
<property>
<name>http.agent.url</name>
<value>mynutchagent</value>
</property>
<property>
<name>http.agent.email</name>
<value>mynutchagent</value>
</property>
</configuration>

と追加する。

これでcrawlができるので試してみる。
bin/nutch crawl urls -dir crawl -depth 10 -topN 1000000
000000

cp nutch-0.9.war /usr/local/tomcat/webapps
/etc/rc.d/init.d/tomcat restart

cd /usr/local/tomcat/webapps/nutch-0.9/WEB-INF/classes
[root@localhost classes]# vi nutch-site.xml でnutch-0.9のrootディレクトリを指定する。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>search dir</name>
<value>/usr/local/tomcat/webapps/nutch-0.9</value>
</property>
</configuration>

Tomcat-6.0.18とnutch-0.9の組み合わせだとエラーが出てくるので
そのエラーを修正する。基本的には¥マークを挿入することでOK。
/usr/local/tomcat/webapps/nutch-0.9
vi search.jsp

<jsp:include page="<%= language + "/include/header.html"%>"/>

<jsp:include page="<%= language + \"/include/header.html\"%>"/>

vi explain.jsp
vi anchors.jsp
も同様に修正。