自然语言检索中的概念语义控制


	安徽大学学报主办单位：安徽省教育厅国际刊号：1000-2162 国内刊号：34-1063/N 学术数据库优秀期刊《中文科技期刊数据库》来源期刊

| | | | | |

本站业务

在线期刊

访问统计

访问总数：24759 人次

本刊论文

自然语言检索中的概念语义控制

作者：秩名时间：2016/09/14 点击：440

　　论文导读：自然语言检索技术。概念检索。其具体实现形式也就是语义检索。迫切需要有一种新的智能检索技术的出现。语义检索，自然语言检索中的概念语义控制。

　　关键词：自然语言检索，概念检索，语义检索，智能检索

　　1 引言

　　面对浩如烟海的网络信息资源，传统的基于字面匹配的关键词检索方式已经不能够很好地满足用户的需求。实践证明，由于关键词检索是一种以词汇控制为主流控制方式的主题检索方式，因此在实际的检索结果中包含了大量与检索主题无关的内容，同时也漏检了许多与检索主题相关的内容，降低了检准率和检全率。在这种情况下，迫切需要有一种新的智能检索技术的出现，能够从概念（知识）的层面上来处理用户的检索需求，而不仅仅局限于字面匹配上。在这里，重点阐述如何将信息检索从传统的基于关键词匹配层面提高到基于概念（知识）层面，实现自然语言检索中的概念语义控制。

　　2 自然语言检索技术

　　自然语言检索技术的发展依赖于自然语言处理技术的发展。前些年，由于自然语言处理技术的发展一直处于一个较慢的水平，因此自然语言检索技术的发展受到了很大制约，进展缓慢。近些年来，随着自然语言处理技术的不断前进，自然语言检索技术的发展也上了一个新的台阶。

　　自然语言检索技术的发展主要依靠的是对检索概念进行语义上的控制，即进行语义层次上的自然语言检索，其具体实现形式也就是语义检索。语义检索是一种理想的检索方式，它以自然语言作为提问输入，经过语义处理，又以自然语言的形式将检索结果返回给用户，能够更好地满足用户的需求[1]。

　　3 概念检索

　　传统的搜索引擎多采用全文检索技术，对于要检索的信息仅仅采用机械的关键词匹配技术来实现。搜索引擎无法处理在用户看来非常普通的常识性知识，更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识。

　　在很多情况下，用户很难通过简单地使用关键词或关键词串来获取真正需要检索的内容。另外，对于相同概念的检索，不同的用户也可能使用不同的关键词作为检索提问。这两方面的原因使得返回的检索结果中包含了大量的不相关信息。例如，“计算机”和“电脑”通常被看作是同一类概念，但应用传统搜索引擎检索的结果却往往大不相同，当用“计算机”或“电脑”分别

　　作为检索词进行检索时，所得到的检索结果中只是包含“计算机”或“电脑”方面的内容，而不是二者的全部，这就大大降低了检索系统的检全率。

　　在这种情况下，用户迫切需要一种新的智能搜索引擎的出现，这种结合人工智能技术的智能搜索引擎能够把信息检索从目前的基于关键词层面提高到基于知识（概念）层面，能够从概念意义层次上来认识和处理检索用户的请求。

　　3.1 概念的涵义

　　概念是关于具有共同属性的一组对象、事件或符号的知识，是事物本质属性的概括。它可能是具体地，也可能是抽象地刻画、定义了一个对象类的特征，是通过字、词、词组等概念描述元素表达出来的。同一个概念可以用多个抽象元素来表达，这些描述元素在此概念的约束下构成了同义关系，它们在此意义上可以等同起来。

　　概念并不是孤立存在的，一个概念总是与其它概念之间存在着各种各样的关系。具体来说，概念之间可以划分为三种关系：等同关系（同一关系）、等级关系（上、下位类关系）和相关关系（交叉关系、并列关系、矛盾关系、对立关系）。根据概念之间的相互关系，在词的概念含义层次上建立联系，为检索用户提供有关的结果分析是概念检索的一个应用前景。

　　概念之间的关系可以通过概念语义网络表示出来，概念语义网络是一个带有标识的有向图，其中，节点表示概念，有向边表示概念之间的关系，如图1所示。

　　图中实心点表示主题词（概念节点），空心点表示非主题词。

　　概念具有层次结构，不同层次表明其抽象的程度不同，层次越高概括性越强，包括的下位概念可能越多。上位概念由一组下位概念组成，上位概念常常是下位概念的抽象、概括或整体表示；下位概念往往是上位概念的属性、特征或说明，是对上位概念的补充和细化，它描述自己独有的属性，同时继承上位概念的属性。

　　除了层次关系之外，概念之间又具有各种联系。为了表示概念之间的相互联系，在树形结构的基础上添加横向关系，把各个独立的概念联系起来，如“计算机”和“电脑”及“微电脑”为同义关系。这些横向关系所连接的概念节点可以是任意层次上的任意节点，从而构成一个概念语义网络[2]。

　　3.2 概念检索

　　“概念检索”这一术语频繁地出现于信息检索、人工智能等领域的有关文献中，但迄今为止一直没有看见明确严格的定义。

　　Excite（http：//www.excite.com）是美国加州Redwood城的Excite公司推出的一款智能搜索引擎，它实现了基于用户个性化定制知识库的中文文本概念检索，在概念层次上对用户的检索进行反馈，从而提供基于内容的智能导航服务。Excite突破了传统的关键词层面检索的局限性，使信息检索更快、更准、更智能。在Exicite搜索引擎说明中对概念检索是这样定义的：概念检索是指在检索文件的过程中，不仅能够检索到含有用户提出的关键词的文件，还能检索到与用户的检索主题密切相关、但并没有包括这些主题词的文件。

　　通常认为概念检索可以有广义和狭义两种理解：广义上讲，只要不仅仅局限于单纯的字面匹配的检索，都可以称之为概念检索；而狭义上则专指语义检索（包括同义词、相关词等等）。本文中所研究的概念检索主要指的是狭义上的概念检索，也就是语义检索。语义检索又称概念匹配，即系统自动抽取文档的概念，加以标引；用户在系统的辅助下选择合适的词语表达自己的信息需求，然后在两者之间执行概念匹配——匹配在语义上相同、相近、相包含的词语，这样不仅仅能检索出包含这个具体词语的结果，还能检索出包含那些与该词语同属一类概念的词汇的结果。例如，输入“电脑”一词，系统会自动检索出包含“微电脑”、“计算机”、“电子计算机”等同义词的相关信息；输入“bicycle”可检索出包含“bike”和“cycle”等词的相关信息。可以认为，

　　概念检索是初级的语义检索，是语义检索的某种实现形式。

　　概念检索的一个基础功能是采用同义扩展检索。论文格式，语义检索。概念之间并不是孤立存在的，它总是与其他概念之间存在着各种各样联系。通常，用户不仅希望能够检索到相关文档，还希望检索系统能够帮助他产生新想法、建议新组合、发现已被遗忘的名称等等。因此，概念检索还必须能够实现语义蕴含扩展（如查询“动物”时，也能查询“猫”、“狗”）、语义外延扩展（如查询“操作系统”时，也能查询“计算机软件”、“应用软件”）、语义相关扩展（如查询“微软”时，也能查询“微软视窗”、“Windows NT”），目前国内外几乎没有一个检索系统能够达到这样的要求[3]。

　　3.3 概念检索的特点

　　概念检索通过对文献中的原文信息进行语义上的自然语言处理来析取各种信息，并由此形成一个知识库，然后根据对用户提问的理解来检索知识库中相关的信息以提供直接问答。

　　概念检索与人工智能领域中的自然语言处理在语义层次上的分析和理解有着密切的关系。传统的关键词检索只是为用户提供那些可能的相关文献，而这些文献是否真正相关，则需要在用户阅读以后才能确定。概念检索立足于语义层次上的分析和理解来处理文献原文与用户提问之间的相关性信息，将相关的信息从不同的文献原文中滤出并归纳成对用户提问的直接回答。传统检索提供的是知识文献内容的标识，而概念检索提供的则是文献内容的意义。

　　3.3.1 具有分析和理解自然语言的能力

　　对用自然语言形式输入系统的文献内容和提问，运用自然语言处理方法和技术进行语义层次上的分析和理解，获取表达文献内容的主题和用户提问的意义，从中取得概念信息和范畴知识。

　　3.3.2 具有记忆能力

　　通过记忆机制，将输入的原文内容根据其概念来进行组织安排，将自然语言处理所取得的概念信息和范畴知识存储到知识库中，并能自动补充与更新。记忆机制还能够进行必要的逻辑推理。

　　3.3.3 具有专家系统（或称知识库）

　　文献内容和用户提问都能以概念和范畴等知识形式存储在知识库中，系统通过语义分析机制和记忆机制获取有关检索和推理的知识，以此来匹配查找知识库中已有的信息作为对用户提问的回答，并且推理出新的信息以更好地满足用户的需求[4]。

　　3.3.4 人机接口

　　根据文献摘要求进行最后的加工，并以自然语言的形式提供给用户。

　　关键词检索方式是一种以词汇控制为关键词层面提高到知识（或概念）层面是目前情报信息检索领域研究的一个热点。本文通过对概念检索、语义检索以及它们之间关系的阐述，说明了如何实现自然语言检索中的概念语义控制，从而能够从概念意义层面上来认识和处理用户的检索需求。

　　4 语义检索

　　4.1 什么是语义

　　语义到底指的是什么？这是一个比较难回答的问题。“语义”作为一个很特殊的词语，每个人对它的理解都各不相同，尤其是当这个概念被不同领域所引用的时候，它的含义往往存在着一些差异。此处主要介绍如下两种观点：

　　（1）广义上的语义：认为“语义”就是文本的含义。语义需要理解文本的意思和结构，而与显示方式无关。

　　（2）数据表示中的语义：Uche Ogbuji曾经在XML的基础上对语义作了如下的定义，他认为“语义”是构建在公用语法上的系统中XML数据的一层规范。论文格式，语义检索。由此定义引出了许多标记了XML语义的概念。包括：

　　（a）元素类型的名称、属性名称和某些情况下内容术语的解释。

　　（b）用于用有效文档引导事务的处理规则（也称作商业规则）。

　　（c）一个文档中的结构化元素与另一个文档中的结构化元素之间的关系。

　　前一种观点是一种比较普通的看法，而后一种观点则比较具有针对性，主要是面向网络信息而言的；本文中采用对语义的前一种理解。

　　4.2 语义检索的涵义

　　语义检索，又称概念匹配，其基本思想是：首先识别并抽取表达文档内容的概念，然后用这些抽取出的概念来表示文档；同样，用户查询也被表达为概念，在两者之间进行概念匹配——匹配在语义上相同、相近、相关联的词语。

　　语义检索是人类所希望的一种检索方式，目前对它的研究只是停留在一个初级阶段上，主要通过对语义检索的一种实现形式——概念检索进行深入研究，逐步促进完全自动化的语义检索的实现。

　　通常所讨论的语义检索主要针对的是文本信息检索领域，而现实中，语义检索所应用的领域相当广泛。例如：

　　（1）基于内容的图像语义检索

　　二十世纪七十年代末，基于文本的图像检索技术就已经产生，它通过对图像进行手工注释，利用文本检索技术进行了关键字的检索。二十世纪九十年代初，大规模图像集不断涌现，研究者们提出了基于内容的图像检索（Content-based Image Retrieval，CBIR）。CBIR使用颜色、纹理、形状及区域等视觉特征进行检索，而这些视觉特征是唯一可以独立、客观地直接从图像中获得的信息。这一方法成为二十世纪九十年代图像检索技术研究的主流。

　　然而，人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。图像必须附加上包括语义在内的各种内容信息，才能真正支持语义检索。CBIR作为一项备受关注的技术在研究和商业方面都取得了一定的结果，但由于它只利用了图像本身固有的物理信息，因此，它只在特定的应用领域，如指纹识别、商标检索等方面获得成功。而要使图像检索技术真正满足用户个性化的需要，必须把图像检索看作一个系统，考虑包括人在内的各种因素对于系统的影响。其中主要的工作和面临的困难来自3个方面：① 必须提供图像语义的有效描述方式；② 必须有提取图像语义描述的方法；③ 语义检索系统的语义处理方法。

　　（2） InterSpace和语义检索

　　语义检索只有在相应的信息基础结构上才能实现。特别是在一个由分布的、异构的信息仓储构成的多媒体网络信息环境中实现仓储的语义联邦和检索的概念匹配——语义检索，这是数字图书馆所面临的最大挑战。

　　DLI（Digital Library Initiative，数字图书馆创始工程）在UTUC（Universityof Illinois at Urbana Champaign）的项目InterSpace中提出了建构互联的信息空间（InterSpace），以实现跨仓储的语义联邦和语义检索，提出了本世纪网络信息环境的发展方向——信息分析环境。主要研究内容如下：

　　① 语义索引

　　首先识别并抽取表达文档内容的概念。方法是上下文同现统计分析（Co-occurrence），分析哪些词同时出现在同一句中，并统计其频率，构造同现词概念图，然后用抽取出来的这些概念词对文档自动标引。仓储中各文档概念图的集合形成了本仓储的概念空间，也就是该仓储所属的专业领域的概念空间。

　　② 语义互操作（Semantic Inter-operability）

　　语义互操作即跨专业领域的词汇切换。论文格式，语义检索。在不同领域的同现概念图间交叉互连，即在分属不同的概念空间、具有相应语义的术语之间进行映射，实现跨仓储的语义联邦。论文格式，语义检索。由于这些概念空间常常来自于不同的社区图书馆，这样，就提供了一条在不同的图书馆间进行概念映射的途径，实现跨专业、跨图书馆的语义互操作。

　　③ 语义检索

　　完全的语义检索有待于人工智能技术和自然语言理解技术的成熟。InterSpace是在词汇切换和语义联邦的基础上，借助交互式的术语提示来实现语义检索的。在用户检索的过程中，系统向用户提供概念图，并根据用户输入的检索词定位相关的部分，供其选择候选的检索词。对于词汇切换问题，由用户在两个不同领域中指定一个共同的术语，系统根据此线索在两个专业领域的概念图间交叉连接，并显示这两个领域中此术语周围的概念图。如此，用户就有了两个术语提示表，以比较那些分属于不同的专业领域却表达了同一概念的两套词语。

　　对未来的期望是将概念空间纳入到网络信息系统的基础体系结构中。网络上所有的信息，个人的、社区的，都组织到仓储中，概念空间的构建和交叉互连成为仓储的基本操作。这样，从个人到社区都有自己的信息空间，Internet成为InterSpace。在概念空间互连和语义匹配的支持下，InterSpace提供对知识跨网的透明操作，其基本功能是互联信息空间，以完成跨仓储的信息关联。用户在InterSpace中选取相关对象的导航路径，系统自动记录下来，然后以此路径去匹配其他仓储的相关路径，实现全网的无缝语义检索，为用户提供一个单一的、虚拟的、统一的网络，一个联邦的信息分析环境。

　　（3）语义Web（Semantic Web）

　　前面已经介绍了语义的概念，那么语义Web指的又是什么呢？简单地说，语义Web就是能够根据语义进行判断的网络。语义Web是最近才提出的一个概念，即Web的内容不仅仅用来显示，更重要的是要具有真正的含义，这样可以通过软件工具在Web中漫游来处理用户所提出的各种复杂的要求。

　　语义检索应用的领域非常广泛，而语义Web则是它的另一个应用。

　　语义Web是一种能够理解人类自然语言的智能网络，它不但能够理解人类的语言，而且还可以使人与计算机之间的交流变得像人与人之间的交流一样轻松。它就好比是一个巨型的大脑，由数据库智能化程度极高，协调能力非常强大的各个部分组成，可以解决各种复杂的难题。在语义Web中，网络不仅能够连接各个文件，而且还能够识别文件里所传递的信息内容，也就是说，它是一种高智能型的网络，可以从事人所从事的工作。例如：它可以让计算机辨别和识别“head”这个单词的意思是“头脑”还是“领导”；在读者看新闻时，它能够轻松地分辨出哪句是标题、哪句是导语[5]。

　　语义Web是对万维网的本质的变革，它的主要开发任务是使数据更加便于计算机进行处理和查找。其最终目标是让用户变成全能的上帝，对因特网上的海量信息达到几乎无所不知的程度，计算机可以在这些信息资源中找到用户所需要的信息，从而将万维网中一个个现存的信息孤岛发展成为一个巨大的数据库。

　　由于语义Web中的计算机能够利用自己的智能软件，在搜索数以万计的网页时，通过“智能代理”从中筛选出相关的有用信息，使得人类可以从搜索网页的繁重劳动中解放出来。而不像万维网，只能够为检索用户罗列出数以万计的检索结果，并且其中还包含了大量不相关的内容。

　　语义Web虽然是一种理想中的网络，但其实现起来却是一项相当复杂而且浩大的工程。它的实现主要是基于XML（可扩展标记语言，Extensible Markup Language）和资源描述框架（Resource Description Framework，简称RDF）。

　　4.3 语义检索的优点

　　语义检索可以解决信息检索中的“词汇问题”。论文格式，语义检索。研究人员常常需要借鉴其它领域的研究成果，但是由于专业术语的隔阂，即便是在非常接近的领域也常常难以找到所需的文献。例如，在山谷中架桥的工程师为了研究风力对桥梁结构的影响，希望能够参考在海底铺设管道的工程师研究水流对管道结构的影响。解决词汇问题的方法是从所涉及的专业领域中在语义上可匹配的术语之间进行词汇切换。如前述的桥梁工程师可直接使用自己熟悉的空气动力学术语，系统则自动将之转换为海洋流体方面的术语。

　　4.4 语义检索与概念检索的关系

　　概念检索与语义检索在本质上是两个范围不同的概念，但二者有着密切的关系。

　　首先，概念检索本身有着广义和狭义之分，通常认为狭义上的概念检索是一种语义检索。其次，语义检索是人们所期望的一种理想的检索方式，它涉及到多个领域。论文格式，语义检索。由此可以得出，概念检索只是语义检索的一种实现方式，二者具有交叉部分。如果只考虑狭义上的概念检索和面向文本领域的语义检索，则可认为概念检索就是语义检索，二者指的是同一种检索方法。

　　5 自然语言检索中概念语义控制发展的新趋势

　　5.1 概念空间

　　概念空间方法为解决词汇控制问题提供了一种新的理念。概念空间方法是自动构造概念语义网络，并以此为基础进行概念检索的一种方法。它的目标是通过文本挖掘技术建立一个知识丰富、可理解的概念空间语义网络，揭示文档中的概念及概念间的关联。概念空间的构造主要包括四个步骤：文档收集、自动标引、共现分析以及联想检索。概念空间适应知识检索的要求，一旦概念空间生成，用户可以根据系统提供的多词语多链接的交互式词语建议，实现同义扩展检索、语义蕴含和外延扩展检索及语义相关扩展检索，从根本上解决了词汇差别的问题[6]。

　　5.2 本体论

　　本体论（Ontology）起初是一个哲学的范畴，后来应用到人工智能、知识工程等多个领域。本体论是某领域内概念模型明确的、形式化的规范说明，就其实质而言，本体论是特定领域内规范化的词汇关系和推理规则的集合，描述了该领域内公认的对象及对象间的关系。与受控词表相比，本体论具有良好的概念层次结构和对逻辑推理的支持，能更精确地表达概念，更全面地揭示概念间的关系，从而对自然语言的控制更为详细和准确，因而更适合于智能化知识检索。本体论将在未来信息检索中占有重要的地位[7]。

　　6 结束语

　　丰富的网络资源为人们的信息需求提供了一个庞大的信息源。但是，传统的单纯基于字面层次的关键词匹配技术已经远远不能满足用户的需求，用户需要的是一种智能化的信息检索技术的出现，即语义层次上的信息检索。

　　语义检索将信息检索从基于关键词层面提高到基于知识（概念）层面，利用词语之间的同义、近义、反义以及其它一些相关关系从概念意义层次上来认识和处理检索用户的请求，具有信息服务的智能化、人性化特征，提高了检全率和检准率，更好地满足了用户的检索需求。

　　参考文献：

　　［1］耿骞，赖茂生。自然语言检索的实现及其关键问题。图书情报技术[J]. 2007, 25（5）： 733-736.

　　［2］Conceptual Indexing for Precision ContentRetrieval.[2010-11-01], http:// www .sunlabs.com /research/knowledge/

　　［3］Michael L Mauldin. ConceptualInformation Retrieval [M]. NewYork: Kluwer Academic Publishers, 1991: 2-45.

　　［4］胡兆芹，张工靖。概念检索在检索网络信息中的应用。中华医学图书情报杂志[J] . 2005, 14（2）： 13-15.

　　［5］邱树熊，李志蜀，王娣。语义网络及其Web信息检索机制研究。计算机工程[J].2004, 30（23）： 118-120.

　　［6］朱晓华。基于概念空间方法的信息检索技术研究。大学图书馆学报[J]. 2003（2）： 47-53.

　　［7］李雅琼。自然语言检索的新发展：与Ontology相结合。信息系统[J]. 2007, 30（2）： 248-251.