nutch導入の経緯をメモメモ。
nutchをダウンロードしてくる。
cd /usr/local
wget http://www.meisei-u.ac.jp/mirror/apache/dist/lucene/nutch/nutch-0.9.tar.gz
tar zxvf /tmp/nutch-0.9.1.tar.gz
cd nutch-0.8.1
export NUTCH_JAVA_HOME=/usr/java/jdk1.6.0_13
echo "http://talftp.net/wp/" > urls/nutch
vi conf/crawl-urlfilter.txtを開いて
↓
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
↓
+^http://talftp.net/wp/
に変更する。
vi conf/nutch-site.xmlを開いて
↓
<configuration>
<property>
<name>http.agent.name</name>
<value>mynutchagent</value>
</property>
<property>
<name>http.agent.description</name>
<value>mynutchagent</value>
</property>
<property>
<name>http.agent.url</name>
<value>mynutchagent</value>
</property>
<property>
<name>http.agent.email</name>
<value>mynutchagent</value>
</property>
</configuration>
と追加する。
これでcrawlができるので試してみる。
bin/nutch crawl urls -dir crawl -depth 10 -topN 1000000
000000
cp nutch-0.9.war /usr/local/tomcat/webapps
/etc/rc.d/init.d/tomcat restart
cd /usr/local/tomcat/webapps/nutch-0.9/WEB-INF/classes
[root@localhost classes]# vi nutch-site.xml でnutch-0.9のrootディレクトリを指定する。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>search dir</name>
<value>/usr/local/tomcat/webapps/nutch-0.9</value>
</property>
</configuration>
Tomcat-6.0.18とnutch-0.9の組み合わせだとエラーが出てくるので
そのエラーを修正する。基本的には¥マークを挿入することでOK。
/usr/local/tomcat/webapps/nutch-0.9
vi search.jsp
<jsp:include page="<%= language + "/include/header.html"%>"/>
↓
<jsp:include page="<%= language + \"/include/header.html\"%>"/>
vi explain.jsp
vi anchors.jsp
も同様に修正。