`
cloudtech
  • 浏览: 4609011 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

Nutch1.2增加插件例子

 
阅读更多

今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:

http://wiki.apache.org/nutch/WritingPluginExample-0.9

这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上

这条属性才能被插件识别。

由于它这个例子是用nutch0.9的,而且1.2和0.9有些区别,于是要修改一些代码。步骤如下:

1.插件开放

1.1在src/plugin中新建一个文件夹recommend

1.2.在recommend目录下新建Plugin.xml和Build.xml文件,内容如下:

Plugin.xml

Build.xml

1.3.在recommended目录下建立/src/java/org/apache/nutch/parse/recommended目录。

1.4.增加RecommendedIndexer.java,RecommendedParser.java,RecommendedQueryFilter.java三个类,内容如下:

RecommendedIndexer.java

RecommendedParser.java

RecommendedQueryFilter.java

1.5.在 src/plugin/build.xml 中的<target name="deploy"></target>中增加一行:

1.6.运行cmd,切换到recommend目录,运行ant命令编译,插件开发完成。

1.7 让nutch识别你的插件

在conf/nutch-site.xml 中增加一下属性

2.编写插件测试类

2.1 在src/plugin中/recommend目录下新建一个data目录,在data目录下新建一个html文件recommended.html内容如下:

2.2 在src/plugin中/recommend目录下新建src/test/org/apache/nutch/parse/recommended目录,增加TestRecommendedParser.java类,内容如下:

2.3 用junit运行TestRecommendedParser.java测试。

2010-10-09

分享到:
评论

相关推荐

    Nutch 1.2源码阅读

    Nutch 1.2 学习笔记,讲的比较清楚的文档

    nutch1.2 java project

    配置好的nutch1.2 java工程,由于上传文件大小限制,只缺少plugins没有传.感觉配置过程太麻烦了,所以感觉有必要分享一下。

    nutch1.2 java的project

    配置好的nutch1 2 java工程 由于上传文件大小限制 只缺少plugins 自己可以添加

    nutch1.2源码

    nutch1.2源码,可与hadoop分布式布置,欢迎下载

    nutch1.2测试文档

    nutch1.2测试文档

    myeclipse8.5导入nutch1.2源码

    将nutch1.2源码嵌入到myeclipse8.5 在window环境的nutch1.2的简单应用 将其放于tomcat的webapp下

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch部分网页乱码BUG修正

    nutch部分网页乱码BUG修正,有代码和详细修改说明

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    Nutch_插件深入研究

    nutch插件,安装nutch插件,mysql与nutch

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    利用Nutch和IKanalyzer构造中文分词搜索引擎

    nutch的插件机制

    nutch插件机制 实例讲解 轻松学习 扩展nutch功能 随意添加扩展

    nutch-1.2.part07

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part05

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    搭建nutch web开发环境

    一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了

Global site tag (gtag.js) - Google Analytics