知网论文查重知网论文查重

论文在线投稿
论文范文大全
知网论文查重 zaolun.COM

基于语义网技术的信息检索研究

万方网论文查重

摘 要:语义网致力于改善读者检索体验,是Web3.0技术的一个核心指标。本文首先分析了基于关键词的机械式匹配的传统信息检索系统的不足,其次描述了语义网的特征、体系结构、并分析了语义网检索系统的关键技术,最后,在此基础上构建出基于语义网技术的信息检索系统。

关键词:语义网;检索;智能

校级科研项目:本文系郧阳师范高等专科学校校立科研项目“基于语义网技术的武当文化特色库检索模型研究”(编号:2012B06)的研究成果之一。

在进入大数据时代的今天,万维网(WWW)成为了人们生活和工作中获取信息的一个重要渠道,它是面向文档的,信息量丰富、获取简便。和传统信息相比,因其表现形式多样而往往会出现组织形式整体无序或局部无序的状态。在广袤的信息资源面前,怎样迅速获取自己想要的信息是迫切需要解决的问题。万维网联盟的创始者蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出了“语义网”的概念,它的核心是:通过给万维网上的文档(如: HTML)添加能够被计算机所理解的语义(Meta data),从而使整个互联网成为一个通用的信息交换媒介[1]。语义网是一种能够理解人类语言的智能网络,因此,语义网的初步实现也作为智能网络web3.0的重要特征之一。

1 传统信息检索存在的问题

信息检索是指从信息资源集合中查找所需文献,或查找文献中包含的信息内容的过程。Baidu、Google等搜索引擎的诞生,让人们从无序的、海量的网络信息中抽取自己想要的信息成为了可能,这种检索工具让万维网的作用得以充分发挥,在某种程度上促进了信息革命。但人们很快就发现,用户在使用这些检索工具时,虽能能得到许多信息,但有时很难迅速地找到自己想要的信息。这种传统的信息检索技术,都是基于关键词机械匹配的,虽然具有使用简单、快捷的优点,但是因为缺乏语义描述,所以存在以下几个问题:

(1)忠实表达的问题。有些情况下,用户无法用一个确切的词语来表达自己需求的信息时,就无法使用搜索引擎。

(2)表达差异的问题。在人类语言当中,一词多义和一义多词是比较普遍的。一词多义,如“苹果”,即可以指人们吃的苹果,也可指某一种品牌的计算机。如果用传统的检索方法,就会产生查准率的问题;一义多词即同义词,如“立刻”、“马上”,如果用传统的检索方法,只检索一个词语,又会带来查全率的问题。

(3)词汇孤岛的问题。“词汇孤岛”是指传统的信息检索不能将关键词关联起来,每个关键词像孤岛一样独立存在[2]。比如:检索“文具”,理论上讲,钢笔、直尺、橡皮都是文具,但在检索结果中一般都不会出现含有带“钢笔”、“直尺”、“橡皮” 的网页。

(4)机械表达的问题。传统的信息检索工具只能机械地从字形上标识关键字,比如:检索“图书”,会机械匹配出一大堆与“图书馆”相关的信息。

2 语义网及其关键技术

人们为了解决上述传统信息检索中存在的问题,开始了语义网技术的研究。语义网是一种智能网络,它不仅可以理解词语和概念,而且还能够理解词汇之间的逻辑关系,从而使人机交互变得更有效率。对语义网技术的研究,需要对语义网的基本特征、体系结构和关键技术有一定的了解。

2.1 语义网的基本特征

语义网虽然是WWW的延伸,但它与WWW有很大的区别,它不仅可使用自然语言表现网络内容,而且这些内容还可以被软件代理人(software agent)所阅读和使用。 “语义网”是计算机和互联网界在描述下一阶段网络发展时所使用的术语[3]。所谓“语义”就是文本的含义,语义网就是能够根据语义进行判断的网络,也就是一种能理解人类语言,可以使人与电脑之间的交流变得像人与人之间交流一样轻松的智能网络[3]。依据这种设计理念,语义网具有以下几个特征:语义网是WWW的扩展与延伸;语义网则面向文档所表示的数据;语义网具有一定的判断、推理能力,其指令便于计算机理解与执行[4]。

2.2 语义网的体系结构

万维网的缔造者Berners-Lee,在1998年提出了语义网的概念。当他提出这个概念时,RDF开始崭露头角;XML技术已经被广泛使用;在知识工程领域,已经对本体技术、逻辑语义研究了几十年。而Berners-Lee对这些技术进行分析与总结,将以上技术融合在一起,设计出了语义网的体系架构。在2000年,他又提出了语义网的体系结构,如图1所示。

Berners-Lee将整个语义网结构分为七个层次:标识符和字符集层、根标记语言层、资源描述框架层、本体层、逻辑层、证明层、信任层,在不同的机构层次中,又融合了多种互联网新技术,最终实现语义检索。

2.3 语义网检索系统的关键技术

构建基于语义网的信息检索系统的目的,是为了能让计算机轻松地理解并处理用户的检索需求,并为用户提供智能化、个性化的信息检索过程。在语义网的体系结构中,根标记语言、资源描述框架和本体,是语义网的关键技术。

2.3.1 本体

本体(Ontology)是源自哲学领域的一个概念,即“存在论”。图2是各种语言对这一词语的表述。

在信息科学领域,本体是指一种形式化的,对共享概念体系明确而又详细的说明,它是对特定领域之中某套概念及其相互之间关系的形式化表达。一个本体描述了一个特定研究领域的一个形式化的、共享的概念化模型,它用于描述互联网上各种不同的、分散的、半结构化的信息资源[5],从而帮助人与机器之间交流。关于本体的基本要素,Perez 等人认为可以按分类法来组织,划分为5个基本要素:类(classes) ,关系(relations) ,函数(functions) ,公理(axioms) 和实例(instances)[6]。

语义网首先用XML定义标签,然后用灵活性很高的RDF来表达数据,最后用一种本体的网络语言来描述网络文档中术语的明确含义和他们之间的关系。本体语言非常多,既有专有本体语言,也有基于标准的本体语言,而和Web有关的主要有:RDF、RDF-S、OWL等,它们之间有着非常密切的联系,是W3C本体语言栈中的不同层次,都是基于XML的。

2.3.2资源描述框架

资源描述框架(RDF)是一个处理元数据的XML应用,RDF即Framework for Describing Resources。资源(Resource)是指所有在Web上被命名、具有统一资源标识符URI的事物,比如网页和XML文档中的元素等;描述(Description)是指对资源属性的陈述,以表明资源的特性以及资源之间的联系;框架(Framework)是指一种与被描述资源无关的通用模型,用以管理资源的多样性、不一致性和重复性[7]。

RDF定义了一种通用框架,使用属性、属性值来描述资源,然后用Web标识符URI来标识事物。通过这种框架,RDF用以描述语义网上的所有资源。资源,作为RDF中的三要素之一,是指可拥有URI的所有事物,比如http://www.calis.edu.cn/rdf;属性是指拥有名称的资源,比如“author”或“homepage”等;属性值是指某个属性的值,如属性值“Johnson”是属性“author”的值。下面是一个用XML描述资源http://www.calis.edu.cn/rdf的RDF文档:

David

http://www.w3school.com.cn

[6]

2.3.3语义标注技术。

语义标注就是将实例与本体的概念相联系的过程,它用本体对网页数据进行标引,让动态变化中的实例与本体结合在一起,使网页实现智能化。语义网中的根标记语言XML,,既能描述文档数据对象本身,也能部分描述如何处理这些数据。同时,它是一种语义/结构化语言,用户可以很方便地定义自己领域的专用标记。XML文档在不同应用中使用时,文档本身不必修改,仅需改变相应的表现形式。

图3所示是对普通文档进行语义标注的过程。语义标注工作类似于给数据库添加记录,对互联网网页做语义标注,将网页文档中的信息和推理规则联系起来,让网页文档信息的含义转化为本体,使计算机能够理解,最终使检索者能够得到自己想要的准确结果。由此可知,语义标注就是用本体对数据进行索引的过程。

3 构建语义网信息检索系统的策略

标引和检索是信息检索的两个基本过程,传统的信息检索技术,仅仅停留在关键词的标引和关键词检索上,因而,传统信息检索技术借助关键词、目录和索引实现全文检索,虽简单快捷,但检索结构却很难让人满意。而语义网,可通过XML语句、RDF概念和本体系统对万维网信息资源进行概念标引,进而让用户实现概念检索,实现智能匹配。一个语义网信息检索系统实现的过程主要包括本体的构建、语义标注和语义检索机制等核心程序。

3.1 领域本体的建立

语义网信息检索系统实现的第一步就是构建领域本体,如果本领域研究的是文献检索,那么需要有文献领域本体研究的专家做建模帮助。文献领域本体的建立过程是:本体确立——本体编码。

文献本体确立的步骤如下:(1)确定以文献为对象为研究领域,以文献检索为研究目的;(2)需求分析,需求为文献本体;(3)对研究领域中文献的关键词、编号、标题、作者等进行概括,以确定本领域的核心概念集;(4)对抽取的本体核心概念集,定义类与类之间的关系,确定概念集的对象属性;(5)确定文献数据属性,包括文献关键词、题目、内容数据属性。

本体编码一般由本体编辑工具对照本体模型来实现,首先编辑文献本体的类,然后编辑类的属性,最后对本体编码并存储。这个过程普遍采用的是网络本体语言OWL进行编码,并形成一个文件来保存。文献领域本体构建的目的,是为了实现概念匹配,让计算机与人交互,获得更精准的检索结果。

3.2 信息语义标注

如何将领域本体和信息关联起来,是语义网需要解决的一个重要问题。因此,研究人员便结合构建领域本体,对信息进行语义标注。在以上文献本体确立之后,我们便要对概念集、文献数据属性进行一一标注,比如,对文献标题、作者、关键词字段进行标注,最后将实例加入到本体库之中,以实现对文献信息的语义标注。

3.3 语义检索机制

领域本体的建立,以及信息语义标注,加工的对象都是信息资源,在一个检索系统中,我们还要对用户检索请求和检索结果进行分析,才能精准而全面地找到用户所需要的结果。首先,要用基于关联树的,或者基于概念的,或者基于语义相似度的语义查询扩展算法,对用户的检索请求做语义扩展分析,充分理解用户的检索请求,获得一组语义扩展后的查询关键词集合,再进一步进行检索。最后,需要用基于语义权重的结果排序方法,比如HITS 算法、PageRank 算法、基于关键词位置的算法等,对检索结果进行排序,将最接近用户检索请求的结果呈现靠前,以提高检索质量。

4 结束语

语义网的提出与发展已经走过了十余年,也取得了比较多的研究成果。国外理论研究相对成熟,部分商用数据库产品,和语义搜索引擎也相继问世。但相比之下,国内理论研究大多停留在综述国外研究的水平上,语义网应用方面的研究也相对较少。在信息爆炸的今天,人们普遍感觉检索体验差的情况下,我们有必要将语义网运用到数字图书馆建设中来,以解决信息检索中遇到信息量大、检索杂乱繁杂、垃圾信息干扰的问题,使读者检索变得更精准,方便广大的读者。

参考文献

[1]语义网[EB/OL][2014-12-30] http://zh.wikipedia.org/wiki/语义网

[2]贾思宇,马玲,常玮. 基于语义网分析的在线学习智能答疑方法研究[J]. 情报杂志,2012,09:104-108.

[3]黄怡. 基于本体的构件描述以及Jena框架下构件库的设计和实现[D].吉林大学,2009.

[4]张莉萍. 语义Web层级论析[J]. 情报杂志,2006,11:89-91.

[5]李洁,丁颖. 语义网关键技术概述[J]. 计算机工程与设计,2007,08:1831-1833+1836.

[6]郭亮. 基于知识单元的语义Wiki知识库[D].西安电子科技大学,2009.

[7]贾正雪. UTO本体的构建及应用研究[D].吉林大学,2008..

[8] 田蓉. 语义网在数字图书馆信息检索中的应用[J]. 青年与社会,2013,10:298.

万方通用版论文查重
维普编辑部版论文查重

AI论文范文,输入题目即可生成万字论文,附赠查重报告,可选开题报告、任务书

AI论文2万字符 AI开题报告 AI工作报告 AI满分作文 AI个人总结