原版nutch中对中文的处理是按字划分,而不是按词划分。为适应我们的使用习惯必须加上中文分词,我加的是 IKAnalyzer。下面是我的方法,我把前台和后台爬虫用两种方法实现中文分词,后台直接替换nutch的analyzer,前台则修改NutchAnalysis.jj(注:我的前台和后台是两个项目)。
前台修改:
在src/java/org/apache/nutch/analysis包下找到NutchAnalysis.jj
(1) 在 PARSER_BEGIN(NutchAnalysis)部分的导入声明中增加如下段
(2)在 TOKEN_MGR_DECLS : { 下面增加如下段
(3)到 TOKEN : {部分,找到| <SIGRAM: <CJK> >,这代表按字划分,修改为| <SIGRAM: (<CJK>)+ >
并在其后面加上
(4)用javacc工具生成NutchAnalysis.jj的源代码,将生成的所有java源代码全部覆盖到 src/java/org/apache/nutch/analysis包下.
有异常的话抛出就行.
后台爬虫修改:
修改src/java/org/apache/nutch/analysis包下的NutchDocumentAnalyzer,
在private static Analyzer ANCHOR_ANALYZER;后面加上
在ANCHOR_ANALYZER = new AnchorAnalyzer();后面加上
把 tokenStream修改为:
分享到:
相关推荐
利用Nutch和IKanalyzer构造中文分词搜索引擎
Nutch 1.2 学习笔记,讲的比较清楚的文档
配置好的nutch1.2 java工程,由于上传文件大小限制,只缺少plugins没有传.感觉配置过程太麻烦了,所以感觉有必要分享一下。
配置好的nutch1 2 java工程 由于上传文件大小限制 只缺少plugins 自己可以添加
nutch1.2源码,可与hadoop分布式布置,欢迎下载
nutch1.2测试文档
将nutch1.2源码嵌入到myeclipse8.5 在window环境的nutch1.2的简单应用 将其放于tomcat的webapp下
Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0
nutch官方简单案例,请版本是nutch-1.2.war
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch二次开发,中文分词,ikanalyzer
ikanalyzer源码,解析ikanalyzer的实现过程,了解ikanalyzer的原理
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...
nutch应用,nutch中文分词,nutch中文乱码
nutch部分网页乱码BUG修正,有代码和详细修改说明
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
关于nutch的搜索引擎的中文分词的研究,包括了编写与实现
一步一步详细解释了如何搭建nutch web开发环境,对nutch1.2有效,nutch1.3以上已经没有web这部分内容了