语义网在数字图书馆信息检索中的应用

【摘 要】基于字面匹配检索的传统数字图书馆信息检索方法在检索效率方面存在一定的缺陷.新一代语义网在语义理解、信息关联方面有其独特优势,其在数字图书馆信息检索系统中的应用必将大大提高信息检索效率.

【关 键 词】语义网;数字图书馆;信息组织;信息检索

数字信息资源的海量增长导致了人类信息行为的改变.数字图书馆以其时空的便利性越来越收到人们的重视,人们更多地通过图书馆的信息检索系统来获得所需的资源.但数字图书馆传统的信息检索系统的缺陷也逐渐显现出来.

一、数字图书馆传统信息检索系统存在的问题

目前数字图书馆中搜索引擎多以传统的关 键 词检索为主.这种检索方式曾在一定程度上满足过用户的需求,但由于字义本身与其概念的延伸经常不在同一级,使得寻得结果往往仅与字面意义相匹配,与人们想得到信息概念及其相关的成分的意愿相违背.首先,传统的检索系统难以准确理解用户的检索需求.如当用户需要查找题名中包含“计算机”的文献时,其真实的检索意图是将关于“计算机”、“电脑”等具有同一语义的文献都查找出来.其次,检索系统返回的多篇文章往往只按相关度、实践、被引频次等进行排序,各篇文献之间相互独立,缺乏语义上的联系.


二、概念语义检索的优势

(一)语义检索系统可以收集用户的相关信息,分析用户的检索行为,了解用户的检索特征与检索爱好,创建符合用户特征的访问模式,从一定程度上提高用户的检索效率.

(二)对用户检索语义的确切理解保证了检索结果的可靠性.概念语义检索克服了字面匹配检索的弊端,使检索结果更接近用户真实的检索需求.

(三)用户可以对系统提供的服务做出信息反馈,对检索结果进行打分排序,系统可根据反馈信息调整服务,从而达到个性化搜索.

三、语义网及其体系结构

1998年,万维网之父TimBerners-Lee提出“语义网”(SemanticWeb)理念.语义网的基本思想是在网络信息的创作和发布中嵌入机器可理解的知识元数据,使计算机具备更强的“理解”和处理数据的能力.语义网环境下,网络成为能理解人类语言的智能网,人机交流变成类似人与人的交流.2000年TimBerners-Lee提出的语义网标准体系结构.该机制的核心由两大模块组成:①以XML与RDF(s)为手段的信息组织模块,用于管理信息,具备部分语义.②以Ontology为手段的知识组织模块,用于管理知识,提供机器间的语义互操作.标准最底层由统一资源标识符(URI)和统一字符编码(Unicode)构成.语义网标准的第二层由可扩展标记语言(XML)、域名系统(Namespace)以及可扩展标记语言结构表(XMLSchema)构成.第三层由资源描述框架(RDF)和资源描述框架结构表(RDFSchema)构成.“XML+RDF(s)”就构成了计算机间相互理解的基础,它们是改造万维网、建立起语义网信息组织机制的三大核心技术.第五层逻辑(Logic)是在本体层之上要做逻辑推理工作.接下来就是保证信息是可信赖的这两个层次,即论证(Proof)和诚信(Trust).

根据以上内容可知,语义网信息组织机制的核心是XML、RDF、Ontology.XML(可扩展标记语言)被誉为“语义标记”,是一种完全面向数据语义的置标语言.XMLSchema提供了规定XML文档结构和内容约束的机制.Namespace则是解决自定义标记过程中名称冲突问题的.RDF(资源描述框架)是网络资源通用描述框架,它是以三元组:主体—谓词—客体,来对网络信息资源进行简单描述的.RDF是一个开放的元数据集成方案.采用RDF来处理不同类型元数据集合,可以实现元数据之间的互操作,使计算机可以理解语义.XML与RDF结合解决了信息建立于信息描述的开放机制和系统的开放性,有利于资源的共享.Ontology(本体)在人工智能领域指的是对共享概念模型的明确的形式化规范说明.

四、概念语义检索的实现

(一)概念语义检索的原理.概念语义检索的原理主要分为三个过程:首先,用户向系统输入检索请求,由于用户的知识领域的差异,输入的关 键 词的准确性有差别,需要系统对检索需求进行语义分析,分析出用户真正的检索需求.第二,概念语义检索系统须对数字对象进行描述和表示,对海量的信息资源进行描述和表示是信息资源数字化整序的过程.第三,语义检索系统将分析出的用户真正的检索意图的认知表达式与概念语义检索系统中整合后的资源进行匹配,检索出所需的信息资源.

(二)概念语义检索的流程.(1)创建元数据:收集各学科的数字信息资源,在MARC、DC等元数据标准下,利用XML、RDF等语义网技术,更准确地描述数字对象的语义,建立元数据并存储在元数据库中.(2)创建本体知识库:利用元数据库中的信息以及现有的主题词表、语义词典等工具,并且借助领域专家的知识和经验的帮助,构建领域内共同认可的词汇,并从不同层次的形式化模式上给出词汇和词汇间相互关系的明确定义.(3)语义标引:利用领域本体对文档进行标引.先从文档集中抽取出特征词汇,分析特征词汇,并建立与概念集之间的联系,从而达到使用领域本体对文档进行语义标引.(4)检索式的处理:用户通过检索界面提交查询请求,推理机利用本体领域内的知识和一些基本的自然语言理解技术对关 键 词或语句进行分析,从领域本体中抽取出与用户查询关 键 词或语句具有语义相似度的本体,最终得到用户真正的检索意图.(5)实施查询并返回结果:推理机将抽取出的语义关 键 词组成语句群,提交至检索系统.然后,系统从数字图书馆信息资源中搜索出符合该语义词或句的所有相关文献资源,即结果集.

作为下一代互联网,语义网在信息检索方面的优势可以为数字图书馆提高检索效率所借鉴.语义网的和核心技术XML、RDF、Ontology为数字图书馆实现用户检索需求的确切理解,构建信息资源的语义关联提供了有效途径,并最终提高了数字图书馆学术信息资源的检全率和检准率.

类似论文

高校图书馆信息检索课程教学改革

[摘 要 ]文章针对高校图书馆信息检索课程教学现状和存在问题进行了分析,并以提高大学生科学获取信息能。
更新日期:2024-6-19 浏览量:82580 点赞量:18607

基于本体的语义信息检索系统模型

【摘 要】传统的信息检索无法实现信息对语义层面的查询,在信息膨胀的今天,越来越难以满足人么对查询效率的要求。
更新日期:2024-4-1 浏览量:11509 点赞量:4168

数字图书馆检索工具的若干

【摘 要】随着信息化时代的发展,数字图书馆的建立与发展是大势所趋,信息的发展带来的网络信息的繁荣 随着。
更新日期:2024-3-27 浏览量:45622 点赞量:10784

基于语义网的图书馆统一检索平台

摘 要:近几年来,各高校图书馆都纷纷建设统一检索平台,比如上海交通大学的“思源探索”,北京大学į。
更新日期:2024-3-28 浏览量:46741 点赞量:11310

数字图书馆信息资源的著作权问题

[提要]近年来,数字图书馆如雨后春笋般出现,传统图书馆纸质作品也大量被数字化,数字图书馆强化、拓。
更新日期:2024-4-20 浏览量:58126 点赞量:13643

高校数字图书馆检索工具的利用探析

摘 要:随着网络技术和计算机技术的飞速发展,各高校的图书馆纷纷建立了相应的数字图书馆,而且在不断的更新。
更新日期:2024-12-8 浏览量:22657 点赞量:6565

中外数字图书馆检索技术的比较

【摘 要】 无论是中过图书管还是国外图书馆,面对大量的图书,管理是非常重要的工作内容,对于查找。
更新日期:2024-2-15 浏览量:32487 点赞量:8307