VSM - 向量空间模型 - PROj - ITeye博客

`

provista

浏览: 120265 次
性别:
来自: 上海

最近访客更多访客>>

bawomingtian123

kangqiao182

everimbaq

飞往罗布泊

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hnraysir：谢谢你的分享!对我有帮助！
JNI的某些数组和字符串类型转换（转）
yejiurui：楼主你这篇文章简直是太好了，多谢啊
JNI的某些数组和字符串类型转换（转）
kndroid： Thanks
理解python的unicode字符串
lseeo：非常不错！
全排列的Python实现
summerbell：太冷清了。你的pagerank心得呢？？？
Hello World

VSM - 向量空间模型

博客分类：

NLP_ML

阅读更多

    一个文本表现为由标点和文字组成的字符串，由字成词，由词生短语，由短语组成句子，进而是段落，节，篇章。要使计算机能够高效的处理真实文本，必须找到一个可行的并且理想的表示方案。这种表示一方面需要真实反映文档内容，另一方面要对不同文档有区分能力。
    向量空间模型（Vector Space Model）是一种自然语言处理中常用的模型，它是G.Salton等人在二十世纪60年代提出的，最早用在SMART信息检索系统中。VSM涉及如下基本概念：
    文档（document）：通常是文档中具有一定规模的片段，从句子到篇章，都可看做一个文档。
    项、特征项（term, feature term）：特征项是VSM中不可分的语言单元，可以是字，词，短语等。一个文档内容被看成是它含有特征项所组成的集合，表示为：Document=D(t1,t2,…tN)，其中t(k)是特征项，1<=k<=N。
    项的权重（term weight）：对于含有n个特征项的文档D（t1,t2,t3,...,tN），每一个特征都依据一定的原则被赋予一个权重w(k)，表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项对应的权重所表示，D=D(t1,w1; t2,w2; ... ; tN,wN)，其中w(k)就是特征项t(k)的权重，1<=k<=N。
    一个文档在上述约定下可以看成是n维空间中的一个向量，这就是向量空间模型。值得注意的是，VSM有如下的特点：
    1.各个特征项互异
    2.各个特征项无先后顺序关系（即，不考虑文档的内部结构）
这样，t(k),k∈(1,N)，就是一个N维坐标系，w(k)就是坐标值，一个文本就是这个N维空间中的一个向量。

分享到：

[水tip] 数值的交换 - swap | hadoop介绍

2009-10-26 18:59
浏览 5102
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

VSM向量空间模型对文本的分类以及简单实现: VSM向量空间模型对文本的分类以及简单实现

VSM向量空间模型.doc: VSM向量空间模型.doc

VSM.rar_vsm_向量空间模型: 向量空间模型 c源码实现利用向量空间模型的概念，这个可以用在crawer中.

The-code-of-VSM-java.rar_vsm java实现_向量空间模型_文档相似度_相似度_词频向量代码: 利用java代码实现向量空间模型,通过词频，文档频率计算相似度的值。

简单向量空间模型VSM算法的实现: 简单向量空间模型可用于文档相似度的计算，也可以用于检索信息，配有详细的注释

论文研究-一种基于向量空间模型的模糊本体映射方法.pdf: VSM-FR方法首先利用模糊本体中的模糊关系构建向量空间模型；然后将模糊概念表示成此向量空间模型中的向量，这样模糊概念之间的相似度就可以通过向量运算的方法来获得；最后为相似度大于给定阈值的模糊概念对建立映射...

vsm向量空间模型java实现（源码）: vsm向量空间模型java实现（源码) 已经测试了，可以直接导入eclipse使用。

VSM.rar_java VSM_java文本相似度_vsm_向量空间模型_文本 VSM: 利用向量空间模型对两个文本的相似度进行计算的Java代码

VSM-PHP-Native:VSM（向量空间模型）模块untuk PHP原生menggunakan余弦测量: 配置要使用此模型，您必须执行以下设置步骤。将表导入到您的数据库。将VSMModule放在项目文件夹的根目录下。 -projectanda---VSMModule-------config.php-------VSM.php-------Preprocessing.php用完成设置后，您...

向量空间模型vsm的c++和java实现: 向量空间模型vsm的c++和java实现，很经典。

VSM信息检索模型（向量空间模型）: 向量空间模型（VSM）的JAVA实现，从文档表示到相似度计算，使用两种相似度计算方式：cos和tf-idf算法

VSM.rar_VSM.rar_space vector_vector space model_vsm代码实现_向量空间模型: VSM向量空间模型的实现代码，实现从web文本中计算出向量空间的值。

向量空间模型(VSM)的余弦定理公式(cos): 向量空间模型(VSM)的余弦定理公式(cos)

向量空间模型的java实现: 向量空间模型的java实现，希望大家一起探讨

论文研究-改进的向量空间模型在主题爬虫中的应用 .pdf: 改进的向量空间模型在主题爬虫中的应用，曾铭，俞俊生，主题爬虫是垂直搜索引擎中的关键组成模块，而向量空间模型(VSM)常被主题爬虫用来判断一个抓取到的网页与搜索主题的相关度。使用传�

论文研究-基于领域本体的文档向量空间模型构建.pdf: 针对VSM不能揭示隐藏在不同特征词后面的相同概念语义、反映文档中的潜在语义关系、在相似度计算中精度较低的问题, 提出一种基于领域本体的文档向量空间模型DOBVSM(domain ontology-based vector space model)。...

论文研究-基于加权向量空间模型的网络搜索.pdf: 该模型在传统的向量空间模型(VSM)中引入了关键词语的加权因子，并在训练文档过程中对文档类型特征向量进行动态优化。这在一定程度上恢复了关键词语实际应具有的权值，方便了阈值的选取，使分类更加准确和高效。实验...

C#向量空间模型改进版: C#向量空间模型改进版，就是实际应用中常用的向量空间模型。

vsmlib:向量空间模型的Python库: -----下面的旧东西------ VSMlib帮助在计算语言学的向量空间模型框架内执行一系列任务。包含什么功能通过计数和基于神经的方法（包括子单词级模型）创建单词嵌入从大量流行的词嵌入格式中导入和导出，并提供对词...

Global site tag (gtag.js) - Google Analytics