基于词典的最大匹配的Lucene中文分词程序 - 安徽新华电脑专修学院校园网中国电脑培训第一品牌新华电脑教育旗舰电脑学校 - 安徽新华电脑专修学院官方网站,新华电脑学校,新华电脑教育,电脑学校,新华电脑学院,电脑培训

基于词典的最大匹配的Lucene中文分词程序

2010-01-13 23:04:42 作者: 来源:

把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式：简单顺序存储SimpleDictionary，首字Hash词典HashDictionary，双重Hash词典；例外实现了两种分词算法：正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment；最后使用使只需根据需要配置spring的配置文件即可选择词典的组织方式与分词算法组装成为分词程序。

运行所需：spring-core.jar lucene-core.jar

希望大家能试用一下我的分词程序，指出我设计的不足，共同学习。

接下来的目标：完成1、寻找更优的词典组织 2、统计识别未登录词 3、人名识别 4、歧义消除

安徽新华电脑学校专业职业规划师为你提供更多帮助【在线咨询】

上一篇：自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer 下一篇：Lucene Hack之通过缩小搜索结果集来提升性能 (1)