|
摘要 用信息萃取方法对文本信息进行挖掘,用聚类算法对萃取的结果进行聚类而得到可视化的结果表达,最终使其结论更直观明了并具有一定的直接意义。
关键词 文本挖掘 信息萃取 层次聚类
随着人类活动的越来越频繁,对于数据库的挖掘已经不能满足人们的需要。越来越多的工具都在考虑如何把大量的数据转化为
有用的知识。为了满足这个需要,研究者涉及了很多技术领域,比如从机器学习、模式识别、统计数据分析、数据可视化、神经网络、经济计量学、信息检索、信息萃取等各个领域拓宽思路和研究可用的方法。数据挖掘技术发展到现在,对结构化数据库的挖掘已经相对比较成熟了,现在越来越多的工具是针对于文本的挖掘,但是对于文本的挖掘技术还处于发展阶段。
信息检索技术的发展,使得我们可以非常便捷地获取网络资源,但是我们还是得通过搜索引擎提供的链接来阅读文档。这就要求我们能够探索一种快速的信息获取方法和表达方式,使人们可以完全明了地获取所需要的信息。
1
方法的提出
完全的文本挖掘技术难以归纳文本内的信息,单纯的数据挖掘只是针对于结构化的数据库,如何把两者完美地结合是我们将要探索的。我们的思路是:先进行信息萃取,对它的结果运用聚类分析,最后用图表表示,即结果表达。我们的方法用在特定的领域,既挖
掘了我们需要的有用信息,又起到了管理信息的作用。
图1
用信息萃取进行文本挖掘的过程
我们提出的方法具有以下优势:a.
方法简单易用,信息萃取过程只需萃取我们需要的简单的关键信息,聚类方法是数据挖掘常用到的方法;b.
文本信息包含了大量的信息,挖掘内容范围广,信息全面;c.
挖掘者具有主观能动性,只要是我们想要的信息都可以获取到;d.
表达形式直观明了,效率高,速度快。
2
信息萃取方法
2.
1 信息萃取的概念 信息萃取( Information Extraction)
是指从一段文本中抽取指定的一类信息并将其形成结构化的数据填入一个数据库中供用户查询使用的过程[1
] ,也叫信息抽取或信息提取,简称IE。信息萃取技术(也叫信息抽取技术)
的初始研究开始于20世纪60 年代中期,形式是从自然语言文本中获取结构化的信息。
国外已经出现了很多基于领域知识的信息萃取系统,应用到了诸如访问信息、外交事件、恐怖活动、自然灾害等领域。信息萃取针对的是新闻报道、报纸、期刊文章、网页、文本数据库等一般的文本源。
我们关注的是应用领域感兴趣的实体,主要是基于关键字进行匹配的,最后得到的结果是预先定义的结构化表达或模板。信息萃取的结果存储到一个结构化的数据库中就构成了我们下一步聚类的原始数据。
2.
2 信息萃取与信息检索( Information Retrieval)
、自然语言理解的区别和联系 信息萃取与信息检索和自然语言理解是相关的,但又是不同的[2
] 。从表1 中我们可以看到它们的区别和联系。
2.
3 信息萃取的过程
首先进行文本的预处理。我们设置一个过滤器,它的作用是在每个句子中进行逐词扫描,根据语料库判断有无领域相关的单词,如果没有则删除此句,以节约计算机资源,提高效率。最后形成的是带标注的句子序列。第二步是进行词法分析,根据词条规则和专业词库,给词条标注词法、句法和语义信息。
先搜索专业词库进行匹配,如无匹配项,再去搜索词条库。第三步是进行句法分析,根据语法库和语料库,生成语法分析树,然后从分析树上生成语义结构、意义表示或其他逻辑结构。第四步是根据知识库进行模式匹配。最后一步是机器翻译,由于我们分析的是英文文本,最后得到的数据库中也是结构化的英文信息,此时接入翻译系统则得到了我们最后需要的结果。
我们建立的知识库有[3
] :a.
命名实体规则。命名实体是指现实世界中具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)
表示,它是文本中基本的信息元素,是正确理解文本的基础[4
] 。b. 概念层次库。层次关系是世界上广泛存在的,由此我们有必要建立一个概念层次库,使我们的结果更加准确。c.共指关系规则。一般说来,我们关心的事件和关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为了准确而没有遗漏地从文本中抽取相关信息,共指关系规则里定义了命名实体的多种表达方式,还规定了指代关系的识别方式。指代关系的识别遵循邻近匹配的原则。d.
模板填充规则。模板元素即最后存入数据库的数据项,也就是我们最后的抽取结果。模板填充规则定义了填充模板的语义信息,如分析结果符合该语义信息,则填充之。图2
是信息抽取的结果分析表,这将是下一步聚类分析的数据。
图2
信息抽取结果表达

3
聚类算法
聚类分析是一种传统的统计方法,通过算法可以得到内部相似类之间的距离。它实质上是一种建立分类的方法,能够将一批样本数据(或变量)
按照它们性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,人们不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准[5
] 。
我们把聚类算法应用于结果数据库中的目的是挖掘存在于文本间的关联关系。因为相同的类具有相同的特点。类别是系统自动生成的,不是我们预先定义的。聚类的目标是类内部相似性最大化和外部相似性最小化。聚类分析的方法一般有两种:一种是“快速聚类分析方法”(
K- Means Cluster Analysis) ,另一种是“层次聚类分析方法”(
Hierarchical Cluster Analysis)
。若观察值的个数多或文件非常庞大(通常观察值在200
个以上) ,则宜采用快速聚类方法。
现在我们得到的信息萃取的结果是30
个样本,所以用了层次聚类分析方法。
层次聚类的基本思想是,它根据观察值和变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚类的方式(Agglomerative
Clustering) 将观察值分类,直到最后所有样本聚为一类。层次聚类分析有两种形式:一种是对样本(个案)
进行分类,称为Q 型聚类,
它使具有共同特点的样本聚集在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R
型聚类,它使具有共同特征的变量聚集在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。图2
是我们经过萃取得到的结果,显而易见,我们要用到的是层次聚类分析方法中的Q
型聚类。
4
结果表达
层次聚类分析中,测量样本之间的亲疏程度是关键[6
] 。聚类的时候会涉及到两种类型亲疏程度的计算:一种是样本数据之间的亲疏程度,一种是样本数据与小类、小类与小类之间的亲疏程度。样本之间我们选择了欧氏距离,
EUCL ID ( x , y) = 6k i =1 ( x i - yi) ,这是计算样本之间距离最常用的方法。小类与小类之间的距离用类间平均链锁法计算。我们用的工具软件是SPSS11.
0 ,图3 是用层次聚类分析方法的Q
型聚类得到的树形图。
图3
根据经费类型所生成的树形图
图4
根据经费机构所生成的树形图
树形图以树的形式展现聚类分析中的每一次类合并情况,SPSS
首先自动将各类之间的距离重新转化到0~25 之间,然后再将其近似地表示在图上。这两个树形图是按照不同的参照变量聚类生成的,从图中我们可以清晰地看到,SPSS
把相同的类聚到了一起。 从图3 中得到,美国在前七项的花费也是差不多的,而在军费支出和国防项目的花费也是差不多的。从图4
中可以看出哪些机构的国防费用是一个级别的。可见,可视化结果一目了然地表达了我们关心的实体的关系。我们做的只是简单的聚类分析,这只是我
们用以说明这种方法的一个示例,实际上,我们还可以用其他方法来分析萃取得到的数据,比如用回归分析来预测未来发展趋势等。
5
结 论
我们提出的方法的创新之处在于把数据挖掘技术深入到了文本中,并使结果表达可视化。对于我们感兴趣的特定的对象,这种方法简单、有效、快速、直观。但是,表达结果可能不能完全表达文本的内容,相比我们直接阅读会遗漏大量的辅助信息。
所以,基于上面我们讨论的,分析不同数据源的数据很重要。对于浅显容易萃取的数字型或名词性对象,我们用这个方法无疑是最好的。我们提出的仅是一种方法,选用的例子无疑是简单的,具体的实用过程还需要不断地探索和完善。
参考文献
1
Wilks Yorick. Information Extraction as a Core Language Technology.
International Summer School ,1997
2
廖乐健,曹元大,李新颖. 基于Ontology 的信息抽取.
计算机工程与应用,
2002 ; (23)
3
J un - Tae Kim ,Dan I. Moldovan. Acquisition of Linguistic Patterns
for Knowledge - Based Information Extraction. IEEE Transations on
Knowledge and Data
Engineering ,1995 ;7 (5)
4
Palmer ,David Donald. Modeling Uncertainty for Information
Extraction from
Speech Data. University of
Washington ,2001
5
余建英,何旭宏. 数据统计分析与SPSS 应用. 北京:人民邮电出版社,2003
6
薛 薇. 统计分析与SPSS 的应用. 北京:中国人民大学出版社,2002
首页[1]末页
|