`
cloudtech
  • 浏览: 4607702 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

Nutch1.2增加IKAnalyzer中文分词

 
阅读更多

原版nutch中对中文的处理是按字划分,而不是按词划分。为适应我们的使用习惯必须加上中文分词,我加的是 IKAnalyzer。下面是我的方法,我把前台和后台爬虫用两种方法实现中文分词,后台直接替换nutch的analyzer,前台则修改NutchAnalysis.jj(注:我的前台和后台是两个项目)。

前台修改:

在src/java/org/apache/nutch/analysis包下找到NutchAnalysis.jj

(1) 在 PARSER_BEGIN(NutchAnalysis)部分的导入声明中增加如下段

(2)在 TOKEN_MGR_DECLS : { 下面增加如下段

(3)到 TOKEN : {部分,找到| <SIGRAM: <CJK> >,这代表按字划分,修改为| <SIGRAM: (<CJK>)+ >

并在其后面加上

(4)用javacc工具生成NutchAnalysis.jj的源代码,将生成的所有java源代码全部覆盖到 src/java/org/apache/nutch/analysis包下.
有异常的话抛出就行.

后台爬虫修改:

修改src/java/org/apache/nutch/analysis包下的NutchDocumentAnalyzer,

在private static Analyzer ANCHOR_ANALYZER;后面加上


在ANCHOR_ANALYZER = new AnchorAnalyzer();后面加上

把 tokenStream修改为:

分享到:
评论

相关推荐

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    利用Nutch和IKanalyzer构造中文分词搜索引擎

    Nutch 1.2源码阅读

    Nutch 1.2 学习笔记,讲的比较清楚的文档

    nutch1.2 java project

    配置好的nutch1.2 java工程,由于上传文件大小限制,只缺少plugins没有传.感觉配置过程太麻烦了,所以感觉有必要分享一下。

    nutch1.2 java的project

    配置好的nutch1 2 java工程 由于上传文件大小限制 只缺少plugins 自己可以添加

    nutch1.2源码

    nutch1.2源码,可与hadoop分布式布置,欢迎下载

    nutch1.2测试文档

    nutch1.2测试文档

    myeclipse8.5导入nutch1.2源码

    将nutch1.2源码嵌入到myeclipse8.5 在window环境的nutch1.2的简单应用 将其放于tomcat的webapp下

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    IKAnalyzer

    nutch二次开发,中文分词,ikanalyzer

    IKAnalyzer源码

    ikanalyzer源码,解析ikanalyzer的实现过程,了解ikanalyzer的原理

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    基于Nutch中文分词的研究与实现

    作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    nutch部分网页乱码BUG修正

    nutch部分网页乱码BUG修正,有代码和详细修改说明

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    Nutch中文分词插件的编写与实现.pdf

    关于nutch的搜索引擎的中文分词的研究,包括了编写与实现

    搭建nutch web开发环境

    一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了

Global site tag (gtag.js) - Google Analytics