首页 > 搜索引擎技术 > 逆向最大匹配分词方法简述

逆向最大匹配分词方法简述

发表评论 评论:0 作者:墨明棋妙 发布时间:2010-7-19 21:50:16

在上次中文分词技术扫盲中说完正向最大匹配分词技术之后,墨明棋妙想在这里说一下逆向最大匹配分词技术,因为其同属一枝,而逆向最大匹配技术实际上比正向最大匹配技术的准确性还要高。
逆向最大匹配技术是一种通过从句子结尾开始进行分词的方法。而正向分词是以正方向进行分词,墨明棋妙觉得逆向最大匹配技术更准确主要是因为:一个句子越后面的部分越代表了更多的信息量。当然仅仅是一家之言。例如:我们去吃饭。如果给出“我们”那么猜出“去吃饭”的概率是一个既定值,那么,如果给出“去吃饭”让我去猜前面的部分,那么,我觉得能猜对的概率会大大增加。
逆向最大匹配技术目前很大一个作用是用来消歧。举一个简单的例子:深圳seo在下梅林聚会。在这里我们不考虑多种词库优先级之类的问题,例子就简单化。那么其正向分词结果是深圳/seo/在下/梅林/聚会,
很显然歧义了,下梅林是一个地名,却没有被分正确,如果采用逆向最大匹配技术的话,假设既定分词节点大小为6,那么首先分出“在下梅林聚会”,很显然,聚会被分出来了,然后“seo在下梅林”,嗯,下梅林就被分出来了,歧义就消除了。
其实归根到底墨明棋妙还是坚持自己的看法,歧义消除也是因为越在后面的信息代表的信息量越大。(当然这不是普遍的,但代表大部分)逆向最大匹配技术也有分出歧义的时候。比如:宜昌seo穿和服装了一箱子货。很明显,采用逆向分词技术分出来的结果是 宜昌/seo/穿/和/服装/了/一/箱子/货,很明显分词产生了错误,而正向匹配分词则能很好的分出来。而逆向匹配能够消歧的原因,我想还是因为,逆向的错误总体上比正向的错误少,这个我认为是由信息量来决定的。当然,这些都是建立在最基础的一个词库的假设基础之上的。
好了,逆向分词就说到这里了,墨明棋妙作为一个知道主义者只是一味的传播却没有创新出来,感谢观看这篇文章。
 

深圳SEO:www.seo-mmqm.com

文章作者:墨明棋妙
本文地址:http://www.seo-mmqm.com/nixiang-zuida-pipei-jishu/
版权所有 © 转载时必须以链接形式注明作者和原始出处!

0 条评论 “逆向最大匹配分词方法简述”

发表评论