`
provista
  • 浏览: 120265 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

VSM - 向量空间模型

阅读更多
    一个文本表现为由标点和文字组成的字符串,由字成词,由词生短语,由短语组成句子,进而是段落,节,篇章。要使计算机能够高效的处理真实文本,必须找到一个可行的并且理想的表示方案。这种表示一方面需要真实反映文档内容,另一方面要对不同文档有区分能力。
    向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型,它是G.Salton等人在二十世纪60年代提出的,最早用在SMART信息检索系统中。VSM涉及如下基本概念:
    文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。
    项、特征项(term, feature term):特征项是VSM中不可分的语言单元,可以是字,词,短语等。一个文档内容被看成是它含有特征项所组成的集合,表示为:Document=D(t1,t2,…tN),其中t(k)是特征项,1<=k<=N。
    项的权重(term weight):对于含有n个特征项的文档D(t1,t2,t3,...,tN),每一个特征都依据一定的原则被赋予一个权重w(k),表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项对应的权重所表示,D=D(t1,w1; t2,w2; ... ; tN,wN),其中w(k)就是特征项t(k)的权重,1<=k<=N。
    一个文档在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型。值得注意的是,VSM有如下的特点:
    1.各个特征项互异
    2.各个特征项无先后顺序关系(即,不考虑文档的内部结构)
这样,t(k),k∈(1,N),就是一个N维坐标系,w(k)就是坐标值,一个文本就是这个N维空间中的一个向量。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics