把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词典的组织方式与分词算法组装成为分词程序。
运行所需:spring-core.jar lucene-core.jar
希望大家能试用一下我的分词程序,指出我设计的不足,共同学习。
接下来的目标:完成1、寻找更优的词典组织 2、统计识别未登录词 3、人名识别 4、歧义消除
安徽新华电脑学校专业职业规划师为你提供更多帮助【在线咨询】