一个文本表现为由标点和文字组成的字符串,由字成词,由词生短语,由短语组成句子,进而是段落,节,篇章。要使计算机能够高效的处理真实文本,必须找到一个可行的并且理想的表示方案。这种表示一方面需要真实反映文档内容,另一方面要对不同文档有区分能力。
向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型,它是G.Salton等人在二十世纪60年代提出的,最早用在SMART信息检索系统中。VSM涉及如下基本概念:
文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。
项、特征项(term, feature term):特征项是VSM中不可分的语言单元,可以是字,词,短语等。一个文档内容被看成是它含有特征项所组成的集合,表示为:Document=D(t1,t2,…tN),其中t(k)是特征项,1<=k<=N。
项的权重(term weight):对于含有n个特征项的文档D(t1,t2,t3,...,tN),每一个特征都依据一定的原则被赋予一个权重w(k),表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项对应的权重所表示,D=D(t1,w1; t2,w2; ... ; tN,wN),其中w(k)就是特征项t(k)的权重,1<=k<=N。
一个文档在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型。值得注意的是,VSM有如下的特点:
1.各个特征项互异
2.各个特征项无先后顺序关系(即,不考虑文档的内部结构)
这样,t(k),k∈(1,N),就是一个N维坐标系,w(k)就是坐标值,一个文本就是这个N维空间中的一个向量。
分享到:
相关推荐
VSM向量空间模型对文本的分类以及简单实现
VSM向量空间模型.doc
向量空间模型 c源码实现 利用向量空间模型的概念,这个可以用在crawer中.
利用java代码实现向量空间模型,通过词频,文档频率计算相似度的值。
简单向量空间模型可用于文档相似度的计算,也可以用于检索信息,配有详细的注释
VSM-FR方法首先利用模糊本体中的模糊关系构建向量空间模型;然后将模糊概念表示成此向量空间模型中的向量,这样模糊概念之间的相似度就可以通过向量运算的方法来获得;最后为相似度大于给定阈值的模糊概念对建立映射...
vsm向量空间模型java实现(源码) 已经测试了,可以直接导入eclipse使用。
利用向量空间模型对两个文本的相似度进行计算的Java代码
配置要使用此模型,您必须执行以下设置步骤。 将表导入到您的数据库。 将VSMModule放在项目文件夹的根目录下。 -projectanda---VSMModule-------config.php-------VSM.php-------Preprocessing.php用完成设置后,您...
向量空间模型vsm的c++和java实现,很经典。
向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法
VSM向量空间模型的实现代码,实现从web文本中计算出向量空间的值。
向量空间模型(VSM)的余弦定理公式(cos)
向量空间模型的java实现,希望大家一起探讨
改进的向量空间模型在主题爬虫中的应用,曾铭,俞俊生,主题爬虫是垂直搜索引擎中的关键组成模块,而向量空间模型(VSM)常被主题爬虫用来判断一个抓取到的网页与搜索主题的相关度。使用传�
针对VSM不能揭示隐藏在不同特征词后面的相同概念语义、反映文档中的潜在语义关系、在相似度计算中精度较低的问题, 提出一种基于领域本体的文档向量空间模型DOBVSM(domain ontology-based vector space model)。...
该模型在传统的向量空间模型(VSM)中引入了关键词语的加权因子,并在训练文档过程中对文档类型特征向量进行动态优化。这在一定程度上恢复了关键词语实际应具有的权值,方便了阈值的选取,使分类更加准确和高效。实验...
C#向量空间模型改进版,就是实际应用中常用的向量空间模型。
-----下面的旧东西------ VSMlib帮助在计算语言学的向量空间模型框架内执行一系列任务。包含什么功能通过计数和基于神经的方法(包括子单词级模型)创建单词嵌入从大量流行的词嵌入格式中导入和导出,并提供对词...