一种基于SVM的网页层次分类算法
网页分类系统的任务是在给定的分类体系下,根据网页的内容自动确定网页关联的类别.一个完整的网页分类过程主要包括以下几部分:首先是预处理,根据采用的分类模型将文档集表示成易于计算机处理的形式;其次是特征选择,如频率统计和权重计算;再次是根据预处理的训练集学习建模,构建出分类器;最后利用测试集文档按一定的测试方法测试建立好的分类器的性能.分类系统的核心是构造一个高效的分类器.
支持向量机(supportvectormachines:SVM)理论,用于解决二分类模式识别问题.它基于结构风险最小化原则,在向量空间中找到一个决策面(decisionsurface),这个面能“最好”地分割两个分类中的数据文献[1]指出SVM较其他方法具有效果和稳定上点的优势.
分类算法是问题分类系统的核心,在典型分类算Bayes方法、决策树及K‐近邻等方法模型简单,
法中,效率较高,并有很多针对这些方法的修正和改进策SVM是分类算法领域中应用最为广泛的方法之.它给予有序风险最小化归纳法,通过在特征空间构建具有最大间隔的最佳超平面,得到两类之间的划分准则,使期望风险的上界达到最小.它的分隔面模式有效地克服了样本分布、冗余特征以及过拟合等因素度的影响,具有很好的泛化能力.
在层次分类模型中,2种分类策略,1种是自有第上而下,每一层训练统一分类器,对测试样本分类时,也是自上而下逐层使用分类器分类.2种是仅以最第底层为分类标签,训练分类器,中间层是抽象层.1第种方法在效率上更好一些,因为从第1层开始,它就开始判断分类标签,删除其他分类分支,每层判断类别标签数与该层分类体系类别数相同.在分类精度上2种方法依据训练样本规模各有优劣.
1 基于SVM的层次分类模型
基于统计的网页分类的整体结构如图1所示.通过标准语料的训练可以矫正分类器的特征库,并用于对测试语料的分类.
层次分类体系
分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系,其中包含着两方面的内容:
1)类别之间的关系.一般来说类别之间的关系都是可以表示成树形结构,这意味着一个类有多个子类,而一个子类唯一的属于一个父类.
2)文档与类别间的关系.一般来说,在分类系统中,一文档可以属于多个类别.层次分类体系将类别按其发生作用的有效范围划分为不同的层次.本文采用opendirectoryproject该分类体系在第一层次分为艺(ODP)中的分类体系.术、商业、体育等16个大类,然后每个大类下面又细分采用ODP的分类体系因为它是由很多不为更多小类.相识的志愿者建立的一个开源的分类体系,该分类体ODP具有很好的开放系也被众多商业搜索引擎参考,当根据ODP分类体系列出其层次结构性和无偏性.时,便得到了如图2所示的树状层次结构.图中每一节点的子节点代表子类.
2 层次分类器
算法提供3个分类结果作为分类器的输出结果中,个类别的结果可以在不同的大类当中.层次分类训练采用每一层次训练1个分类器,在分类阶段,当一个测试样本到来时,先用顶层分类器分到某一个类别当中,然后再利用这一层的分类器继续分类,如此进行下去,直到样本分到某一个类别为止.这种分类方法产生的问题就是:如果上面层次的分类器出现错误,则最终的结果就一定会产生错误.解决这一问题的方法就是在往下分类的时候采用多条路径,即采用每个类别保存3个结果,然后从这3个类别分别往下分类.最终从这些结果中选择3个最佳的分类结果.
3 数据稀疏问题
针对互联网语料不平衡的特点,我们采用类别均衡方法,该方法较好的训练集必须是类别语料分布比较均衡,而且各类别的语料能够较好地代表该类别.其主要步骤如下:
1)对训练集进行预处理,把所有的小类别合并成一个或几个新的数量较大的类别,这些新类别具有和训练集中原有的大类别相同的数量级,由此形成了一个类别分布比较均衡的新训练集;
2)在这个重新组合多的新训练集上进行训练,得到一个分类器,称之为一级分类器;
3)把所有的小类别组成一个小的训练集,进行分类训练,也到一个分类器,称之为二级分类器,至此,训练过程结束;
4)当一个未知类别的样本达到分类器的时候,首先用一级分类器对其进行分类,判断分类结果.如果第
1次的分类结果为训练集原有的类别,则把该结果作为样本类别;如果第1次分类结果为组合成的新类别,则需要用二级分类其对该文档进行第2次分类,二级分类器的分类结果为样本的最终类别.使用该分类模型在8个一级类别和126个二级类别的体系中进行测试,使用500000人工标注的新闻类网页语料作为训练集,000新闻类网页作为测试10集,得到的测试结果如表1所示.
通过测试可以看出,对于网页分类体系类别多、区分度小、没有标准的训练与测试样本集,用基于采
SVM的层次分类算法,并使用类别均衡方法来处理数据稀疏问题,表现出了较好的使用性和准确率.
深圳SEO:www.seo-mmqm.com
文章作者:墨明棋妙
本文地址:http://www.seo-mmqm.com/svm-wangye-cengci-fenlei/
版权所有 © 转载时必须以链接形式注明作者和原始出处!
不错哦!学习个嘿嘿