今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:
http://wiki.apache.org/nutch/WritingPluginExample-0.9
这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上
这条属性才能被插件识别。
由于它这个例子是用nutch0.9的,而且1.2和0.9有些区别,于是要修改一些代码。步骤如下:
1.插件开放
1.1在src/plugin中新建一个文件夹recommend
1.2.在recommend目录下新建Plugin.xml和Build.xml文件,内容如下:
Plugin.xml
Build.xml
1.3.在recommended目录下建立/src/java/org/apache/nutch/parse/recommended目录。
1.4.增加RecommendedIndexer.java,RecommendedParser.java,RecommendedQueryFilter.java三个类,内容如下:
RecommendedIndexer.java
RecommendedParser.java
RecommendedQueryFilter.java
1.5.在 src/plugin/build.xml 中的<target name="deploy"></target>中增加一行:
1.6.运行cmd,切换到recommend目录,运行ant命令编译,插件开发完成。
1.7 让nutch识别你的插件
在conf/nutch-site.xml 中增加一下属性
2.编写插件测试类
2.1 在src/plugin中/recommend目录下新建一个data目录,在data目录下新建一个html文件recommended.html内容如下:
2.2 在src/plugin中/recommend目录下新建src/test/org/apache/nutch/parse/recommended目录,增加TestRecommendedParser.java类,内容如下:
2.3 用junit运行TestRecommendedParser.java测试。
2010-10-09
分享到:
相关推荐
Nutch 1.2 学习笔记,讲的比较清楚的文档
配置好的nutch1.2 java工程,由于上传文件大小限制,只缺少plugins没有传.感觉配置过程太麻烦了,所以感觉有必要分享一下。
配置好的nutch1 2 java工程 由于上传文件大小限制 只缺少plugins 自己可以添加
nutch1.2源码,可与hadoop分布式布置,欢迎下载
nutch1.2测试文档
将nutch1.2源码嵌入到myeclipse8.5 在window环境的nutch1.2的简单应用 将其放于tomcat的webapp下
Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0
nutch官方简单案例,请版本是nutch-1.2.war
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch部分网页乱码BUG修正,有代码和详细修改说明
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
nutch插件,安装nutch插件,mysql与nutch
利用Nutch和IKanalyzer构造中文分词搜索引擎
nutch插件机制 实例讲解 轻松学习 扩展nutch功能 随意添加扩展
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了