基于OAIPMH的本地资源元数据开放

[摘 要 ]针对基于OAI-PMH开放本地资源数据库元数据问题,描述网络化环境中获取元数据信息事实上的标准OAI-PMH协议规范、体系结构,介绍基于CALIS教学参考信息元数据规范,利用ASP技术,提供本地教参资源数据库开放元数据接口,是本地资源基于OAI-PMH协议开放元数据的应用实践研究.以期通过开放本地数据库元数据,达到提升数据库系统互操作性和开放性的目的,真正做到资源共享.

[关 键 词 ]OAI-PMH本地资源元数据互操作

[分类号]G250.7 TP391.3

1 OAI―PMH简介

OAI是一个旨在促进网络信息资源发布与共享的合作组织,意为开放文档先导,1999年10月由美国图书馆和信息资源委员会(CLIR)、数字图书馆联盟(DLE)等发起,在SantaFe召开的一次中心议题为“电子出版文献的互操作”的会议上第一次提出了OAI设想,主要讨论了元数据搜寻(MetadataHarvesting)方法,于2000年9月形成了“Santa Fe协议”,即最早的Alpha版协议.2000年的ACM(美国计算机学会)数字图书馆会议上,对在实现“SantaFe协议”过程中遇到的问题进行了审查和讨论,并于2001年1月发布Beta版,即1.0版,2001年7月发布了Beta2.0版,即1.1版,2002年6月发布了产品版,即2.0版,目前为OAI-PMH协议的最新版本,由于广泛的应用推动已经成为事实上的标准.2005年3月,Google已采用OAI-PMH协议收割澳大利亚国家图书馆的数字对象仓储数据.OAI的目标是通过元数据搜寻方式实现Web上不同信息发布机构之间的互操作,提供一个与应用无关的互操作框架.协议较简单,便于OAI提供者的松散与动态加入.虽然OAI-PMH的标准元数据比较简单,以无修饰词的DC为核心,运用于一些复杂的数据结构时存在障碍,但随着电子政务的深化、电子文件的大量产生以及这些数据与OAI之间转换技术的进一步完善和成熟,OAI-PMH在数字资源网络化与共享方面将会有更为广阔的前景.截至2007年10月12日,仅仅是在OAI注册的数据提供方仓储已达715个.

当数字图书馆的定义扩展到包括一些传统对象,例如图像和电子印刷品等研究数据时存在一个需求,即需要链接到通常很大并且基于网络被不同研究机构分享的数据库上,因此基于分布式环境建设和服务的数字图书馆模式是近几年网络信息技术的发展趋势,得到普遍肯定和广泛采用.美国弗吉尼亚理工大学1997年发起的NDLTD(基于网络的博士论文数字图书馆),台湾建立的eThesys系统,均采用遵循统一元数据格式和标准规范,通过OAI-PMH集中元数据分散式的建库模式.我国的CALIS高校学位论文库二期项目、CALIS教学参考信息库等,也采用这种思路和框架,各校可以独立开发自己的系统,但要求各校统一元数据格式,并按OAI―PMH发布自己的元数据记录.CALIS中心则按照各校提供的BaseURL,通过OAI-PMH收割各参建馆的元数据,将各成员高校的元数据信息集中起来,以此为基础提供检索服务和全文链接服务,从而实现对分布式系统的统一查询.

2 开放性信息系统结构

基于OAI-PMH分布式建库模式属于一种松散的互操作模式,不需要使用统一的数据库系统,也不需要各校人工提交数据.可以在本地建立自己的系统后,按协议规定的格式和提交方式来定义数据,即可实现数据的自动提交.因此,自行开发的大连理工大学(以下简称本校)教参信息管理系统,在稳定运行、具备各项基本功能及服务、较好地满校具体情况的同时,其数据资源作为全国教参信息分布式数据库资源的组成部分,必须考虑本地数据资源的开放性,基于相关元数据标准和数据规范,提供开放元数据接口和全文链接接口.

本校教参信息管理服务系统是大连理工大学211工程2期文献保障系统的一个子项目,依据CALIS关于教参书的元数据规范和标准开发设计,目前数据仓库中包含4200余条书目数据和1700余条课程数据,并且链接教学参考书超星电子书数据库,现已能提供2100余本电子版教参书的全文资源.本系统选用SQL SERVER数据库平台,基于IlS,利用ASP及VB技术开发设计,采用B/S和C/S混合架构,运行环境为WindowsServer,具备教参信息及课程信息提交、查询、修改、管理及发布功能.教参信息管理与服务系统结构设计如图1所示:

基于元数据开放互操作及全文链接需求,系统设计提供OAI接口和OpenCRt,接口,实现本地教参资源元数据及全文的开放性,可以作为支持OAI-PMH协议的数据收割的数据提供者(Data provider),对来自服务提供者(Service provider)的请求做出响应,为远程中心收割系统提供元数据信息.同时作为信源,自建资源系统必须支持遵循OpenURL协议的全记录(全文)链接,使用户检索到元数据记录后,可通过OpenURL技术链接到本地的全文电子书数据库.

3 基于0AI―PMH开放元数据的实践与研究

3.1 OAI-PMH结构

OAI-PMH是一个在分布式网络化环境中获取元数据信息的标准协议,通过定义标准化的接口,本地仓库服务器能够将其元数据有选择地提供给外部应用程序和其它服务器.OAI-PMH并不是替代已有的其它元数据互操作协议,例如Z39.50,而是提供基于HTTP协议上传输XML文件的一种易于实现的方法.遵循OAI协议的系统依据其任务不同,分为数据提供者(Data provider)和服务提供者(Service provider).OAI请求使用册中的GET或POST方法,至少包括一个谓词,“verb等于OAI方法名”的参数,用一个“”连接在baseURL后面,当使用多个参数时,用“&”连接.对于HTTPPOST方法,参数必须包含在POST的消息体中,成功的OAI响应以OAI要求的格式XML向服务提供者提供元数据,服务提供者“收割”元数据,并基于元数据提供增长服务,基于OAI-PMH的元数据操作结构如图2所示:

OAI接口的主要功能是封装一个响应信息的XML文件,执行对每个请求动作的Verb参数检查、响应处理,OAI-PMH协议定义了6个谓词,完成SP与DP之间的交互.其中,Idenfi,ListMetadataFormats和ListSets提供对存储基本信息的描述,用户协议及其他有关规定.元数据收获的实质性工作是由ListIdentLfiers,G-etRecord和ListRecords这三个谓词完成.

流控制resumptionToken标识,也称之为重新开始标记.一些OAI请求的返回结果是列表,这种列表可能很长,需要分割成一系列的协议请求和响应.分割的方法是在数据仓库
的全局描述XML文件中指定返回记录的最大值.分割的原则是返回结果是一个不完整的列表和一个resumptionToken,但记录必须是完整记录.请求方为了得到完整的列表,需要继续重发一个或多个带resumptionToken的请求,从而得到一个完整的列表.流控制可选属性可能包括总记录数、起始光标、元数据格式、下一个记录的唯一标识符、超时日期等.

Identifier为记录的唯一标识符,metadataPrefix为获得元数据的格式类型,From指定返回记录的开始时间,Until指定返回记录的结束时间,Set用于实现按组选择性收割,可以选择按主题等分组.

3.2 基于OAI-PMH接口结构

自行开发的本校教参信息系统作为数据提供者,CALLS教参元数据收割服务器作为服务提供者,通过本校教参信息管理服务系统的元数据开放接口实现元数据收割.OAI元数据开放接口应具备响应每个verb请求的功能,执行相应的命令动作,检查参数,对非教参仓库中元数据记录所采用的元数据格式的参数,要调用元数据转换模块实现格式转换,并封装一个响应信息的XML文件.

ASP能与任何ActiveX scripting语言相容,除了可用VBSpt或JScript语言来设计外,还可通过plug-in的方式,使用由第三方所提供的其他脚本语言,例如Perl、Tcl等,另外可以通过ADO非常方便地实现数据库的访问.前期系统利用ASP开发WEB程序,因此仍然利用ASP实现系统的OAI接口设计开发.

3.2.1 通过一个XML配置文件对本地教参信息仓库的基本配置信息进行描述包括本地教参信息数据仓库名称、OAI元数据搜寻接口的URL、协议版本、管理人员电子及最后更新时间等.

3.2.2 创建XSL文件实现元数据映射及XML文件内容格式化控制OAI较多采用数据提供者提供的元数据格式为DublinCoret6l元数据核心集,为元数据信息的发布提供了统一的接口,是否支持其它格式可由数据仓库自行决定.CALLS制定了高校教学参考书信息管理与服务系统数据规范,其中明确规定了教学参考信息元数据与DC元素对应关系和教学参考书元数据与DC元素对应关系,根据这个数据规范,建立教参信息元数据映射,完成本地教参信息数据格式到DC格式的转换,在两者之间建立起元素及其属性和值间的对应关系,程序上通过创建XSL文件实现元数据映射及XML文件内容格式化.OAI-PMH开放元数据接口流程如图3所示.

在数据库配XML描述文件中,定义了数据仓库的基本信息,包括数据仓库名称、管理员EMAILS、是否支持OAISET、元数据格式、数据库表描述等.在global.asa中利用MSXML创建DOM对象.MSXML是指微软的XML语言解析器,全称为Microsoft XML Core Services,用来解释XML语言.就好像HTML文本下载到本地,浏览器会检查HTML的语法,解释HTML文本然后显示出来一样,要使用XML文件就一定要用到XML parser.不仅微软有,像IBM、SUN都有自己的XMLparser.MSXML 4.0提供了大量的新功能和功能改进,包括对XML模式语言的支持,更快的分析器和XSLT引擎,提供对XML流更好的处理及更好的一致性支持等.


3.2.3 支持OAI-PMH协议的数据提供者采用HTTP协议的方式响应信息中有可能也包含HTTP协议的一些状态信息,比如错误信息.元数据记录信息以XML格式返回,较多采用DC格式,具体的形式有三个部分组成:①头文件(head),由记录标识附(uniqueidentifier)和时间戳(datestamp)组成.记录标识附与记录一一对应,是记录在数据库中的唯一标识.时间戳用于存储记录创建、修改和删除的时间信息.②元数据(metadata),记录的核心部分,存储完整的元数据信息.③关于(about),一般由元数据的版权信息、使用元数据的条件等内容组成.

例如,baseurlverb等于ListRecords&metadataPrefix等于oai_dc,解析ListRecords动词页面的metadata部分和about部分,如图4所示.其中参数指定metadataPrefix等于“oai-dc”,该条记录的标识符是oai:lib.dlutedu:jcdate/1278,创建时间是2005-11-01,元数据metadata部分包括多项教参书元数据信息对应的DC格式显示,包括书名、出版者、IsBN等,相关文献信息为courseID,即课程标识,关于部分声明该条元数据版权属于大连理工大学图书馆.

3.2.4 按标准协议开发的程序进行解析在对某些数据提供方采集的数据解析时,会抛出异常或报错,这往往是由于数据提供方返回的数据没有严格遵守协议规定的LSchematics2.

4 结论

图书馆本地数据库资源,包括分布式建库的本地资源和一些特色遗留数据库资源,可采用ASP等多种编程语言基于OAI-PMH实现元数据开放,提升数据库系统的开放性及互操作性.真正做到资源共享,关键是只有严格遵守协议和相关数据标准规范,才能保证数据提供的顺利完成.OAI-PMH采用HTTP协议基础平台,抛弃了以往实现互操作时那些复杂的分布式计算技术、组件技术与网络技术,大大降低了开发难度和成本,使开放本地资源元数据变得易于实现.且sP和DP可以自动控制开放服务对象和获取元数据对象,体系结构开放、灵活.HTFP及XML的开放性标准,使得OAI提供的信息为规范、严格、自解释的结构化信息,非常有利于进行信息交互、共享及二次开发.

类似论文

有关财会信息资源元数据标准的

摘 要:挖掘和研究非标准的、大量的信息资源,关键的技术是建立财务和会计的信息资源的。
更新日期:2024-8-16 浏览量:106540 点赞量:23376

数字文化资源的元数据格式

〔摘 要〕元数据可以实现对庞大数字文化资源的描述、管理和有效检索 本文首先介绍了数字文化资源的特点和应用中对元数据į。
更新日期:2024-8-27 浏览量:107160 点赞量:23284

基于元数据仓储的数字资源整合与实践

〔摘 要〕数字资源整合是现阶段图书馆发展的必然趋势 笔者根据所在单位开展数字资源整合平台的建设经验, 介绍了国内外有代表性的资源整合。
更新日期:2024-4-1 浏览量:12533 点赞量:4656

视频元数据在服装方面的应用

摘 要 :近几年以来,随着我国图书馆数字化与信息化工程建设不断的深入与发展,视频资源数字化也逐渐的被抬上研发的台。
更新日期:2024-8-1 浏览量:15964 点赞量:4911

2000—2023年我国电子文件管理元数据综述

摘 要 :本文通过文献分析法,对2000——2011年我国有关电子文件管理元数据的论文进行分析总结,以进一步了解我国电子文。
更新日期:2024-10-15 浏览量:132518 点赞量:29099

图书馆信息管理中元数据的应用

[摘 要]随着信息技术的不断发展,元数据的应用也越来越广泛,其在图书馆信息管理中也发挥越来越大的作用,很。
更新日期:2024-2-21 浏览量:33424 点赞量:8534

元数据标准MODS的应用

【摘 要】本文论述了元数据标准MODS的内涵、特点及其使用的基本原则,介绍了国外MODS近期应用的一些项目 【关 键 词 】元数据;MODS。
更新日期:2024-2-6 浏览量:7606 点赞量:2744