当前位置:首页 > 网站旧栏目 > 学习园地 > 设计软件教程 > 基于词典的最大匹配的Lucene中文分词程序

基于词典的最大匹配的Lucene中文分词程序
2010-01-13 23:04:42  作者:  来源:

把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词典的组织方式与分词算法组装成为分词程序。

运行所需:spring-core.jar   lucene-core.jar

希望大家能试用一下我的分词程序,指出我设计的不足,共同学习。

接下来的目标:完成1、寻找更优的词典组织 2、统计识别未登录词 3、人名识别 4、歧义消除


安徽新华电脑学校专业职业规划师为你提供更多帮助【在线咨询