什么是停词?
从咖啡博客上看到一篇关于停词的文章,在这里我也写一下停词。首先说一下什么是停词,停词就是那些表停顿,连接等作用的词和超高频率词的集合体。在之前逆向最大匹配分词方法简述中对分词有了初步的介绍,停词是为了更方便的分词而认为滤除的一些非重要性词语。
通常的停词有哪些呢?比如“的”,“地”,“在”,“就”这些高频词通常都会被列入停词表中,对于这些词来说,由于其自身出现频率极高,所以其已经不足以用来判断一个文档的特征,这时滤除这些词语不仅仅有利于节约存储空间,而且对提高索引效率和精确度来说都是有好处的。
英文通常的停词有哪些呢?比如:i ,is,等很多词汇都是停词,在这不一一列举了,百度谷歌都会对停词进行过滤之后再进行索引,所以在搜索时候,并不一定要输入停词,通过几个相关词照样能搜索到差不多的答案。
通过停词能看出的一点就是一个词汇在所有网页中出现的频率越高,则这个词的信息量就越少,从而也越难以表征此文档的特性,一个词汇在此文章中出现的次数对比所有文章中此词出现的次数与所有文档字数的比值越高,则越能体现此文章的价值,这也是关键词密度对排名影响的原因所在。
深圳SEO:www.seo-mmqm.com
文章作者:墨明棋妙
本文地址:http://www.seo-mmqm.com/shenme-tingci/
版权所有 © 转载时必须以链接形式注明作者和原始出处!
0 条评论 “什么是停词?”