不久前Hibernate推出了Hibernate Search 3.0 GA,由它的名字大家也可以大概猜到它的作用是对数据库中的数据进行检索的。它是hibernate对著名的全文检索系统Lucene的一个集成方案,作用在于对数据表中某些内容庞大的字段(如声明为text的字段)建立全文索引,这样通过hibernate search就可以对这些字段进行全文检索后获得相应的POJO,从而加快了对内容庞大字段进行模糊搜索的速度(sql语句中like匹配)。
Hibernate Search运行的环境如下:
1、JDK或JRE 5.0以上
2、Hibernate-Search以及相应的依赖包
3 ...
- 16:16
- 浏览 (3054)
- 论坛浏览 (8210)
- 评论 (20)
- 分类: 分词与索引
经过努力终于在 引入局部统计识别高频词汇的Lucene中文分词程序 以及 基于词典的最大匹配的Lucene中文分词程序 把中文人名识别功能加入,能把大部分的中文姓名识别出来,结果喜人。
原理:
根据贝叶斯定理,分别建立中文形式库FirstName.stu,从网上搜集得到的真实姓名库Name.stu,以及以姓氏为开头但非中文姓名的词库(如“曾经是”,“关门”,“陈述”等)UnName.stu。然后先使用之前完成的基于词典的最大匹配分词算法对文本进行初步分词,然后利用Spring的AOP把人名识别器SimpleChines ...
- 10:17
- 浏览 (2835)
- 论坛浏览 (3566)
- 评论 (8)
- 分类: 分词与索引
在基于词典的最大匹配的Lucene中文分词程序基础上引入了局部统计识别新词的功能,目前实现的方法有两种:
1、基于后缀数组的局部统计识别高频词汇 BasedSuffixArrayStringFetcher
2、基于单字共现频率的局部统计高频词汇 HighFrequenceStringFetcher
问题1:什么是后缀数组
解答:
后缀数组是由作为一种文本索引结构提出的, 这种结构记录了一字符串中 ...
- 18:40
- 浏览 (2073)
- 论坛浏览 (2150)
- 评论 (2)
- 分类: 分词与索引
把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词典的组织方式与分词算法组装成为分词程序。
运行所需:spring-core.jar lucene-core.jar
希望大家能试用一下我的分词程序,指出我设计的不足,共同学 ...
- 17:56
- 浏览 (8702)
- 论坛浏览 (11925)
- 评论 (12)
- 分类: 分词与索引
接着是正向最大匹配的实现类MaxMatchSegmentProcessor:
java 代码
/*
* @作者:Hades , 创建日期:2006-11-17
*
* 汕头大学03计算机本科
*
*/
package edu.stu.cn.segment.matching.processor;&n ...
- 08:38
- 浏览 (1029)
- 论坛浏览 (1080)
- 评论 (0)
- 分类: 分词与索引
现在来看一下基于词典的分词接口(最大匹配法)。先来看一下分词处理的接口SegmentProcessorImpl:
java 代码
/*
* @作者:Hades , 创建日期:2006-11-17
*
* 汕头大学03计算机本科
*
*/
package edu.stu.cn.segment.matching.pr ...
- 08:32
- 浏览 (1090)
- 论坛浏览 (1212)
- 评论 (0)
- 分类: 分词与索引
最后说一下双Hash结构的实现类DoubleHashDictionary类:
java 代码
/*
* @作者:Hades , 创建日期:2006-11-17
*
* 汕头大学03计算机本科
*
*/
package edu.stu.cn.segment.matching.dictionary;
import java.io.BufferedReader;
import java.io.FileReader;
import j ...
- 19:07
- 浏览 (1326)
- 论坛浏览 (1601)
- 评论 (0)
- 分类: 分词与索引
目前为止,已实现了1、一维线性表 2、首字Hash 3、双Hash 三种词典的存储结构与表现形式。
首先来看一下词典结构的接口Interface:
java 代码
/*
* @作者:Hades , 创建日期:2006-11-17
*
* 汕头大学03计算机本科
*
*/
package edu.stu. ...
- 18:52
- 浏览 (1040)
- 论坛浏览 (1070)
- 评论 (0)
- 分类: 分词与索引
一眨眼大学四年的生活就要过去了,摆在自己面前的也差不多只剩下毕业设计这个“难关”了。很高兴能在大学中找到跟自己志同道合的好朋友,好拍档一起来为我们的毕业设计——基于语义网的信息检索而奋斗。正如主题那样,我所负责的正是中文分词这一部分……
经过一个月来找工与断断续续的编码相交织的努力,也实现了基于MM(正向最大匹配)与RMM(反向最大匹配)两种方式的 ...
- 18:20
- 浏览 (957)
- 论坛浏览 (967)
- 评论 (0)
- 分类: 分词与索引
- 浏览: 31279 次
- 性别:

- 来自: 广东广州

- 详细资料
搜索本博客
我的相册
Inter
共 3 张
共 3 张
最近加入圈子
最新评论
-
初试Hibernate Search
test_root 写道如果我的数据库英字符集的,中文内容保存后都是乱码, 我该 ...
-- by billgmh -
初试Hibernate Search
如果我的数据库英字符集的,中文内容保存后都是乱码, 我该如何实例化org.apa ...
-- by test_root -
初试Hibernate Search
请问用hibernate search后,如何实现分页? 能把相关的分页代码贴出 ...
-- by test_root -
初试Hibernate Search
太缺乏项目经验了,这么多达人,看这些东西好像还有些懵懂的意思一直想做点什么,真是 ...
-- by andy54321 -
初试Hibernate Search
还是compass好一些
-- by neptune






评论排行榜