设为首页加入收藏
全站搜索
新闻详情
 
新闻搜索
 
 
栏目导航
 
 
当前位置
基于向量空间模型文本过滤算法
作者:管理员    发布于:2015-11-03 11:11:19    文字:【】【】【

  Internet的飞速发展使得网络上的信息资源成指数形式增长,它容纳了各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握有效的信息是信息处理的一大目标,也是网络用户的主要需求文本过滤是指给定一个主题描述(即用户需求),建立一个能从文本流中自动选择相关文本的过滤模板(filteringprofile),随着文本流的逐渐进入,过滤系统自动地接受或拒绝文本,并得到文本相关与否的反馈信息,根据反馈信息自适应地修正过滤模板目前,在信息处理方向上,文本的表示主要采用向量空间模型(VSM)向量空间模型是基于统计的分类系统中广泛采用的文本计算模型,它可以将给定的文本转换成一个维数很高的向量,其突出的特点是可以方便地计算出两个向量的相似度,即向量所对应的文本的相似性「4!

  在向量空间模型中,文本泛指各种机器可读的记录,用D(Document)表示;特征项是指出现在文档D中且能够代表该文档内容的基本语言单位,用t(Term)表示,主要是由词或者短语构成文本可以用特征项集表示为基金项目:湖南省普通高校教学改革研究资助项目(2003-72);湖南社科成果评审委员会资助项目(0406035)上贺卫红(19),男,湖南湘乡人,湖南大学衡阳分校,研究方向:计算机网络及应用;曹毅(1977-),男,湖南长沙人,中南大车研41气」3十」方向门第洲贺卫红,曹毅:基于向量空间模型文本过滤算法D(Ti,T2,…,T),其中Tk是特征项,  优特征项就是那些与相关文本集rel(Q)互信息量大的词汇。词汇和相关文本集之间的对数互信息量由下式计算:3.2训练算法的流程训练算法的流程如图所示。

  图i训练算法流程图首先将用户需求转变为主题向量,连同从正例文本和伪正例文本中抽取的特征向量进行加权和运算,得到初始模板,再计算初始向量和全部训练文本之间的相似度,后为每一个主题设置优的初始相似度阈值。

  3.3初始模板的建立初始模板向量是由主题向量、从正例文本中抽取的特征向量以及从伪正例文本中抽取的特征向量进行加权和运算得到的,设权重分别为a,b和c,则有:出现的数量,若w,没有在主题Q中出现,则权重为0同样地,对于从正例文本中抽取的特征向量Pi(p,pi2,…,piW),表示w,的权重,re/(Q)表示主题Q的正例文本:对于从伪正例文本中抽取的特征向量P2(Q),有P2(Q)=向量高度相似但又不是给定的正例文本的那些文本,加入伪正例文本主要是为了从正例文本中挖掘出更多的相关在训练文本中的比重。

  对所有词汇依据上面计算的互信息量进行排序,从中系统工程3.4初始阈值的设定相似度阈值的确定是十分困难的,一般采用预定初始值,然后给出测试文本进行文本过滤,再根据过滤的准确程度调整初始值。阈值一旦设立,那些与模板向量的相似度大于或等于阈值的文本就被认为是相关文本,而其他文本就被认为是不相关的。

  文本过滤的主要评价指标是一个基于准确率的指标,称为T9P可以通过计算模板向量和训练文本之间的相似度,对任意的阈值水平,计算在这个阈值下的性能评价指标T9P值,从中选择能导致佳性能的阈值作为初始阈值。而模板向量和训练文本之间的相似度可以用向量之间夹角的余弦值表示:量的维数,d=表示d中第k个词的权重。

  4文本过滤的自适应算法4.1自适应算法的流程当初始的模板向量建立并且阈值也设置好之后,对文本流中的每篇文本,都可计算它和某个主题的模板向量的相似度。若相似度大于或等于阈值,就被认为是相关文本然后由用户判断这篇文本是否真正和主题相关,再根据不同的结果自适应地修改模板向量或调整阈值,使得过滤系统的性能不断提高以满足用户的需求自适应算法的流程如图新示。

  正例文本反例文本模板修改相似度>阈值自适应算示流程。2阈值的调整由于文本流中相关文本的比例是很低的,因此在经过一个固定长度的时段后才调整阈值。提高阈值的目的是检出较少的文本,从而提高准确率;而降低阈值的目的是检出较多的文本,从而提高召回率。阈值的调整有以下原则:(1)当检出的文本多于必要时,就提高阈值;(2)当检出的文本少于必要时,就降低阈值。

  4.3模板的修改一旦检出的文本被用户判断为相关文本,就将其加入到正例文本集中,否则就加入到反例文本集中。调整模板向量时,从正例文本和反例文本中抽取出特征向量。新的模板向量就是由主题向量、从正例文本中抽取的特征向量以及从反例文本中抽取的特征向量进行加权和运算得到的,设权重分别为和c则有:(Q)表示反例文本提取的特征向量,P3(户31,户32,…,户3W),若iTr/e(Q)表示主题Q的反例文本,则5测试结果系统过滤质量的衡量一般采用信息检索领域的评价标准|8,用正确率(precision)和召回率(recall)衡量:……正确的项目数Preason=所有的项目数正确的项目数所有有用的项目数为了测试该文本过滤算法,我们将某计算机杂志从1998年到200年4年中的学术论文作为测试数据(每年只选用正刊),主题向量固定,每测试完年进行一次确认,将检出的相关文本放到正例文本集中,其它放到反例文本集中。初始的模板是主题向量和正例特征向量的加权和,权重分别为0.4和1,每测试完1年作出确认之后,新的模板是主题向量、由正例文本集抽取的特征向量和由反例文本集抽取的特征向量三个向量的加权和,权重分别为0.25贺卫红,曹毅:基于向量空间模型文本过滤算法表1实验数据表年份准确率召回率-准确率一0-川叫宇实验结果曲线图从表卸图河以看出,随着时段的推移,过滤出来的文本的准确率在上升,而召回率(即检测出来的文本占总文本的比率)有所下降,这说明该算法能够根据用户的反馈获得信息,提高其性能。

  6总结本文提出的基于向量空间模型的文本过滤算法分训练和自适应过滤两个阶段,其关键问题在于相似度的计算该算法能根据用户的反馈信息,自动调整过滤模板和阈值,以获得佳的过滤性能,更好地符合用户的需求。从信息处理的角度看,文本过滤已经在诸如提供选择性信息服务的企事业单位等领域得到了很好的应用,随着算法的不断改进和完善,文本过滤将应用到越来越多的领域

访问统计
51客服