基于本体的自然语言检索研究


	安徽大学学报主办单位：安徽省教育厅国际刊号：1000-2162 国内刊号：34-1063/N 学术数据库优秀期刊《中文科技期刊数据库》来源期刊

| | | | | |

本站业务

在线期刊

访问统计

访问总数：24766 人次

本刊论文

基于本体的自然语言检索研究

作者：秩名时间：2016/09/14 点击：432

　　论文导读：而自然语言检索具有方便、快捷、易于操作的特点，成为信息检索领域一大发展趋势。从2001年开始，一些专家、学者开始把本体理论应用到自然语言检索领域。目前关于本体构建的方法还没有一个明确而标准的体系构建方法[5]。

　　关键词：自然语言检索，本体，本体构建

　　随着计算机、网络与信息技术的迅猛发展，信息的产生、发布速度日新月异，使得现在的Internet和Web上具有海量的信息资源。而随着计算机和网络的普及，人们的信息意识也在不断增强。各行各业的人们都深刻意识到信息的重要性，对信息的需求也越来越迫切，信息用户群从原来的只有少数专业人员范围发展到了全民范围。面对庞大的网络信息资源如何进行有效地组织，并提供快捷、方便的检索服务，已经成为信息检索领域亟待解决的问题。常规的全文检索方式虽然可以保证查全率，但是查准率却大大降低，而基于数据库的检索方法，其性能取决于所使用的字段标识方法和用户对方法的理解，对于大多数没有经过检索培训的用户来讲，操作起来费时费力，具有很大的局限性，也不能满足用户在语义上和知识上的需求。而自然语言检索具有方便、快捷、易于操作的特点，成为信息检索领域一大发展趋势。现在自然语言检索系统可望扫除人与计算机系统的接口障碍，只是对自然语言如何进行分解取得准确的语义问题还有待更深入地研究[1]。从2001年开始，一些专家、学者开始把本体理论应用到自然语言检索领域。本体具有能通过概念之间的关系来表达概念语义的能力，因而在信息检索，特别是在基于知识的检索中支持知识上、语义上的匹配，对检索系统的查全率与查准率有更好的保障。本体的最大优势还在于本体将某个或多个特定领域的概念和术语规范化，提供了人机交流的机制，使得机器可以理解语义，达成机器与机器之间、机器与人之间的语义互操作。要实现对Web上的知识信息的重用与共享，充分挖掘语义Web的潜力，就需要大规模采用基于本体的方法来组织信息资源。本文首先介绍了自然语言检索的优缺点及本体的概念，然后论述了自然语言检索与本体论结合的优势，最后提出了开发本体的方法。

　　1 自然语言检索的优缺点

　　1.1 自然语言检索的优点

　　使用自然语言检索不受繁琐的检索规则限制，检索标识从源文的题名、文摘和正文中提取，符合大多数用户的检索习惯，用户使用自然语言描述他们的信息需求，用能准确反映自己意图的词语作为检索标识[2]。自然语言检索的优点可归纳为三个方面：

　　（1）自然语言检索不受词表限制，可以输入新生词汇，更有效地跟踪新事物的发展。

　　（2）自然语言检索以源文的内容作为检索标识，符合大多数用户的检索习惯，不受专业及使用检索系统能力的限制，能更快、更准确地命中检索目标。

　　（3）自然语言检索采用从文献中抽取标引词的方式，既加快了标引速度，又减少了文献内容的失真度，可以实现各数据库的标引和检索成果共享。

　　1.2 自然语言检索的缺点

　　自然语言检索在情报检索语言中毋庸置疑是最为方便的一种检索语言，但是它还是存在很多问题，正是这些问题的存在使它不能完全取代情报检索语言。自然语言检索的缺点可归纳为两个方面：

　　（1）自然语言检索在选词上没有经过严格筛选，词汇繁杂。对同义词、近义词、多义词、相关词没有进行规范和统一，词间缺乏有机联系，从而影响查全率和查准率。

　　（2）自然语言检索本身具有模糊性、随意性，在机检过程中会占用大量存贮空间，影响查询匹配的速度。

　　要获得满意的检索效果，必须对自然语言检索做进一步的处理，也就是进行概念控制。由于本体可以通过对概念、术语及其相互关系的规范化描述，刻画出某一领域的基本知识体系和描述语言，将检索过程由传统的关键词的匹配转化为语义上的匹配，本体的引入无疑给自然语言检索技术的发展带来了新的契机。

　　2 本体的定义

　　本体（Ontology）最早是一个哲学的概念，原意指的是“客观存在的一个系统的解释和说明，客观现实的一个抽象本质”。本体在计算机领域的定义经历了一个漫长的演化过程[3]。在人工智能界，最早给出本体定义的是Neches等人，他们将本体定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993年，Gruber给出了本体的一个最为流行的定义，即“本体是概念模型的明确的规范说明”。后来，Borst在此基础上，给出了本体的另外一种定义：“本体是共享概念模型的形式化规范说明”。Studer等人在对本体做了深入研究后，扩展了Gruber的定义，认为“本体是共享概念模型的明确的形式化规范说明”。这一定义已被大多数人认同，该定义包含了四层含义：

　　1）概念模型（Conceptualization），即本体是通过抽象客观世界的概念而得到的模型，该模式定义了概念间的相关关系；

　　2）明确性（Explicit），即本体所使用的概念及这些概念的上位类之间都应该有明确的定义和说明，没有二义性；

　　3）形式化（Formal），即本体是计算机可处理的，而不是自然语言；

　　4）共享（Shared），即本体体现的是共同认可的知识，反映的是相关领域中公认的概念集合，应该被整个领域的群体所接受。

　　本体的目标是捕获相关的领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义，利用本体概念化、形式化、明确性、共享性的特性来提高信息检索的准确性与覆盖率，从而将Web上的所有信息，连结成一个巨大的数据库。

　　3 自然语言检索与本体结合的优势

　　本体是关于领域知识的概念化、形式化的明确规范，是对领域知识的共同理解与描述，它和情报检索语言一样由概念及其之间的相互关系构成，所不同的是构成本体的概念更加系统、全面地揭示概念之间的相互关系，具有更强的表达能力。因而本体更适用于网络环境下的信息资源组织与检索。其优势主要体现在：

　　（1）本体同样也具有标引功能、信息组织功能、对信息进行集中并显示其相关性的功能，本体可以替代情报检索语言对自然语言加以更好的控制。

　　（2）本体比传统的情报检索语言更加深入、全面、细致地反映了概念之间的关系，同时在组织结构上，本体中的概念构成了一个语义网络，提供了一个共享的词汇库，以达到人机之间交流顺畅、且不会丢失曲解交流信息所包含的语义。

　　（3）本体中的概念用自然语言或半自然语言表达，应用更广。本体的描述能力可以解决同名异义及异名同义，描述概念间的相互关系，显示描述概念的语义，支持相关信息源之间的信息交换，提高应用的互操作性，促进领域知识共享和重用，可以实现基于本体的语义检索或自然语言检索。

　　（4）本体是一个开放的体系，其概念集可以随着学科领域的发展而进行动态更新，更适用于信息频繁更新与变化的网络环境。完善概念间的语义关系，扩展语义结构，运用本体语言对概念及其关系进行形式化的表达，以便于计算机可以在某个程度上理解人类的概念与术语。

　　4本体的构建方法

　　本体的构建是整个基于本体的自然语言检索系统的基础，决定着自然语言检索系统的性能、通用程度以及系统运行的质量。本体描述了类、关系、函数、属性和实例之间的语义关系，如何正确、有效、合理的建立本体是这个系统建立的关键。

　　4.1 本体构建准则

　　对同一领域，同一事物，不同人往往会建立不同的本体[4]。论文格式。由于本体应该是规范化的描述，因此遵循统一的构造准则是必要的。目前最为常用的是Gruber在1995年提出的5条规则：

　　1）明确性和客观性：本体应该用自然语言对所定义的术语给出明确、客观的语义定义，定义应该是形式化的并尽可能完整。

　　2）完全性：所给出的定义是完整的，完全能表达所描述的术语的含义。

　　3）一致性：本体应该是一致的，也就是说，它应该支持与其定义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。

　　4）可扩展性：本体应该为可预料到的任务提供概念基础。它应该可以支持在已有的概念基础上定义新的术语，以满足特殊的需求，而无须修改已有的概念定义。

　　5）最小承诺：对待建模对象给出尽可能少的约束，只要能够满足特定的知识共享需求即可。论文格式。

　　4.2 本体构建方法

　　目前关于本体构建的方法还没有一个明确而标准的体系构建方法[5]。国外常见的几种构建本体的方法有：IDEF5法、骨架法、TOVE法、METHONTOLOGY法、KACTUS法、SENSUS法、七步法。其中IDEF5法提供了一种结构化的方法，利用该方法，领域专家可以有效地开发和维护领域本体；骨架法只提供开发本体的指导方针；TOVE法的目标是建立一套为商业和公共企业建模的集成本体，目前利用TOVE法已经建成了相关本体；METHONTOLOGY法已经被马德里大学理工分校人工智能图书馆采用；KACTUS法用于技术系统生命周期的知识重用问题的本体开发，以便于在设计、诊断、操作、维护、再设计和培训时使用同一知识库；SENSUS法是关于用自然语言开发电子领域的本体构建方法，目前该方法所构建的本体用于军事领域；七步法目前主要用于医学领域的本体构建。

　　通过对上述本体构建方法的分析，我们可以看到，构建基于本体的信息检索系统需要遵循一系列相互关联的步骤和方法。论文格式。目前，对于自然语言检索与本体结合方面的探讨，还未见较为系统深入的研究报导，结合上述7种方法，本文提出以下4个关于建立一个应用于自然语言检索系统的本体的一般步骤以供参考。

　　1）确定本体的领域与范围

　　在建立本体之初，首先要明确构建的本体将覆盖的专业领域，并搜集这一领域的概念。主要通过专家及文献的调研来实现[6]。首先是由相关的领域专家给出抽象的本体结构定义；其次通过领域内的各种文本语料搜集目标文本，如各种标准、法规、辞书、教科书、科技论文、目录等；再次利用共享领域的知识来源如：术语数据库、术语汇编、叙词表、辞典、百科全书等。再由领域专家所提供的计算机专业人士通过相关的技术手段转换成为计算机能够理解的数据形式。

　　2）确定本体的主体概念和概念间的关系

　　确定本体的主体概念可以在最低限度上保证概念体系建立的质量，它可以避免主要概念的遗漏，还可以揭示概念分析的重点。获取本体主体概念的方法我们可以参照叙词表，选出准确而精简的表达出领域知识的关键性概念，将它作为主体概念的主干，摒弃那些不必要或者超出领域范围的概念，由上到下将概念细化。然后再进一步识别确认，对不足部分进行添加和修改。从而形成一个领域知识的主体概念框架结构。主体概念确定后，就要确定概念间的关系。各个概念之间存在着各种不同的关系，如属种、交叉、同一、并列、发展、推理、因果、联想关系等等，正是这些关系的存在才能把某一领域内的全部概念连成一个概念体系。因此，正确判断概念间的关系是构建合理的概念体系的前提。

　　3）建立本体

　　根据上文所述，在确定了本体范围和主体概念并确定了概念关系以后我们就可以建立本体了。首先要根据实际情况设计一些指导方针；其次，利用类、关系、函数、属性、实例等本体要素组织和表示领域概念，其详细程度以满足本体的应用目的为宜；最后选择合适的本体工具和本体语言，对上述建立的本体进行编码，使其形式化，生成领域本体。

　　4）检查和评估本体

　　通过领域专家对本体进行最终的验证，包括检查概念、属性及概念之间在句法上、逻辑上和语义上的一致性，对本体、本体相关的软件环境和文档做技术性的评判。

　　5 结束语

　　本体的构建是一个漫长的过程，采用自然语言检索与本体结合的方法仅仅是刚刚起步。自然语言检索已经成为网络信息检索的主流技术，现在越来越多的搜索引擎支持自然语言检索。实现自然语言检索一直是图书馆人的一个理想，自然语言的核心问题在于机器对自然语言的理解，本体是自然语言处理的基础，开发利用好本体将有助于自然语言检索更好地实现。

　　参考文献

　　[1] 宋炜，张铭。语义网简明教程。北京：高等教育出版社，2004

　　[2] 耿骞，赖茂生。自然语言检索的实现及其关键问题。情报科学，2007（5）：733-741

　　[3] http://www.blogjava.net/hjh132/archive/2008/04/16/193586.html

　　[4] 刘春，黄定光。本体初探。现代情报， 2008（1）：38-39

　　[5] 杜文华。本体构建方法比较研究情报杂志， 2005（10）：24-25

　　[6] 罗昊，夏英华。论本体语言创制中的领域知识分析。图书馆学研究，2008（10）：60-63