上一篇:
今天人丢大了
今天人丢大了受了那么大的教训怎么也应该好好总结下了,下面随便说说吧。
1 词库问题
词库在分词中会非常重要,而且量比较大,这是一个很大的效率瓶颈,我个人觉得在这里应该做到如下的:
a) 多级分词 比如 字母+单字的两级索引这样效率稍高
b) 排除重复和陷阱,重复不多解释了,陷阱,我认为就是那种包含词,包含词的坏处很可能造成正确失效
c) 过长的词组的强制拦截,长词是毫无意义的,比如中华人民共和国,我认为这不是一个好词条,应该是中华 人民 共和国 这几个才对,如果用户的词库中包含过长的就应该强制处理
2 检错要求
JE分词的两大问题:1对于特殊字符有比较大的问题,这个问题一开始还没有发现,但在大规模抓取之后就非常严重了 2 错误的分词。
我个人觉得,分词一旦有错误完全应该选择单字法,这对于查询是有意义的,其实这类似与cjk的二分法看似愚蠢,但仔细看看其实却拥有不错的效果(效果是第一位的)
3 多样的接口
主要针对分词 文件 db 等等多种方式导入这是必须的。
接下来几天内抓紧实现下看看,不过在这里要好好地鄙视下JE分词的,虽然我是偷懒了,但这个分词的能力实在。。。不多说了,好多事情要做。
喝酒这回事
2007/08/17 00:01 | by


