首页 > 搜索引擎技术 > 分词过程中新生词汇的处理

分词过程中新生词汇的处理

发表评论 评论:0 作者:墨明棋妙 发布时间:2010-7-22 20:49:15

不知不觉,墨明棋妙的深圳seo博客就快两个月年龄了,呵呵!前些天说过了中文分词技术逆向最大匹配分词方法,今天说说新生词汇的处理。在这个新生词汇横生的网络多元化年代,词库的更新和对于新词的搜集成了一个重要的方面,对新生词频繁出现那么搜索引擎该怎么处理呢?
对于新生词汇,目前通常采用的是多元切分的方法。
例如:春哥曾哥犀利哥都在囧途中。,如果采用一元分词的话,每个单字为一个词,这个分法对囧字的突出还是比较明确的。但是其他词的话就勉强了。
如果采用二元分词的方法那么分出来的词汇就是春哥/哥曾/曾哥/哥犀/犀利/利哥/哥都/都在/在囧/囧途/途中/,这样就能分出一些典型的新生词了,而如果采用三元分词的话犀利哥这个词也能分出来了,而保留整体的话也能够保持新生词的完整性被保证。
通常新生词的长度也不会很长,在一个语句经过常规词语分词后剩下的那部分词汇也就几个字大小,而后将1元,2元,甚至3元分词方法再加上完整的未分出词,全部加入到索引队列中,这样,对于新生词汇的搜索就能够搜索到了,因为一般的可能性都被包含在集合体中了。
好了,关于新生词就说到这里了,分词技术的研究对于我们无论是网站标题优化,还是怎样做外链,内链都是大有好处的。搜索引擎技术给了我们太多可以研究的地方,而这些恰恰能更好的促进seo技术的发展,给我们seoer带来更多的挑战和机遇。

深圳SEO:www.seo-mmqm.com

文章作者:墨明棋妙
本文地址:http://www.seo-mmqm.com/fenci-xinshengci-chuli/
版权所有 © 转载时必须以链接形式注明作者和原始出处!

0 条评论 “分词过程中新生词汇的处理”

发表评论