Erlang:一个通用的网络服务器
2010-01-13 23:12:05
导语: 前面几篇文章里谈到了Erlang的gen_tcp网络编程和Erlang/OPT的gen_server模块,现在让我们将它们两者绑定在一起
Lucene进阶:and 和or的条件查询
2010-01-13 23:10:41
导语: 在用Lucene实现全站搜索的过程中,很可能会遇到这样的问题,只所有某种特定的信息资源,而不是全部.如:某综合性站点,有新闻,产品,论坛,Blog,视频等资源,而搜索的时候先选一个类型(下拉列表),再输入关键字进行搜索(当
Lucene(Lucence)建立索引(字段)
2010-01-13 23:09:43
导语: Lucene,这是官方称谓,也有许多人叫它Lucence,做搜索和分词用的工具包.也有人说是Java下的搜索引擎框架库,见仁见智的说法罢了.不管叫什么,确实非常有用,比如做全站的搜索,其实它的用处远大于此,但凡涉及到文本搜索
Lucene应用的一点体会
2010-01-13 23:07:22
导语: Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)1.多线程索引,共享同一个IndexWriter对象这种方式效率很慢,主要原因是因为:java 代码 public void addDocument(Document doc, Analyzer
关键词:应用
带局部统计识别高频词汇及人名识别的Lucene中文
2010-01-13 23:06:10
导语: 经过努力终于在 引入局部统计识别高频词汇的Lucene中文分词程序 以及 基于词典的最大匹配的Lucene中文分词程序 把中文人名识别功能加入,能把大部分的中文姓名识别出来,结果喜人。
基于词典的最大匹配的Lucene中文分词程序
2010-01-13 23:04:42
导语: 把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大