SPSSClementine决策树建模在图书馆中的应用

摘 要: 分析影响读者借阅量的因素,确定不同读者的借阅需求,进而依据需求差异化的借阅权限和服务.利用SPSS Clementine挖掘工具,采用C5.0决策树算法,对国际关系学院图书馆的读者借阅数据进行挖掘,建立读者决策树分类模型,将读者按借阅频度分为活跃读者、一般读者和沉默读者.结果表明,读者身份、专业、年级和性别对借阅量有重要影响,本科大三学生借阅需求较大,大四学生借阅需求小.决策树分类能对图书馆读者进行细分,可为调整读者借阅权限提供理论依据.

关 键 词 : 决策树; 分类; 图书馆; Clementine; 借阅权限

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2014)04-30-04

Abstract: The factors influencing readers' borrowing amount are analyzed and different readers' borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5.0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups: activing readers, mon readers and silent readers. The mined data e from reader borrowing records of the library of university of international relations. The results show readers' identity, major, grade and gender he an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is all. The library readers may be classified by refering to decision tree classification to provide theoretical evident for adjusting borrowing authority.


Key words: decision tree; classification; library; Clementine; borrowing authority

0 引言

数据挖掘能从大量数据中发现有用的知识,目前己成功应用于各个领域.图书馆系统积累了大量读者数据,研究如何将数据挖掘有效地用于图书馆[1-4],变数据为知识,从而更好地为读者服务,是数据挖掘和图书馆工作者的共同责任.

决策树分类是数据挖掘中的一种重要方法,该方法通过对已有数据的学习,识别影响对象分类的若干因素,构建一个决策树分类模型,对对象进行分类.文献[5-6]为决策树在图书馆读者借阅数据中的应用实例,其中文献[5]利用.5算法,对306条读者借阅记录进行了分类建模,利用学历、专业和年级三个属性,构建借阅次数(高/中/低)分级模型,得出的结论为:学历是第一决定因素,其次是专业和年级,研究生和大四学生借阅量低等.笔者认为文献[5]挖掘的数据量过小,不具有足够的说服力,且借阅次数分级采取主观划分的方法,缺乏依据.文献[6]利用ID3算法,对1969条研究生的借阅记录进行了分类建模,利用读者是否为新生、是否为工程类学生、性别和距离图书馆的远近等属性,构建决策树模型,得出的结论为:读者是否为新生为第一决定因素,其次为是否工程类、距离远近和性别,一年级新生离图书馆近的、高年级工科学生为活跃读者等.笔者认为文献[6]的数据只覆盖研究生读者,样本不全,且模型仅从训练数据构建,没有测试数据测试,使模型的普适性受到怀疑.另外,文献[5-6]没有对具体所用挖掘工具的介绍.

针对上述研究背景,本文使用SPSS Clementine软件,采用基于C5.0的决策树分类算法,对国关图书馆的4366条读者借阅记录进行建模.建模过程综合考虑读者身份、专业、年级、性别、民族和索书号等因素,构建读者借阅频度决策树分类模型,分析影响读者借阅量的主要因素,给出针对不同读者群的借阅权限分配和服务建议.作为数据挖掘在图书馆的进一步应用探索,本文一方面可为国际关系学院图书馆开展实际业务工作提供帮助;另一方面可为其他高校图书馆开展挖掘实践,提供方法和过程指导.

1.需求分析及技术思路

1.1 需求分析

国际关系学院图书馆藏书37万余册,服务对象为全校师生员工、家属、成人教育学员、国际大学预科项目PCP学员(Pre-College Program)等.服务的部门涵盖法律系、公共管理系(简称公管)、国际经济系(简称国经)、国际政治系(简称国政)、日语法语系(简称日法)、文化与传播系(简称文传)、信息科技系(简称信科)、英语系共八个系.

长期以来,国关图书馆对于读者权限的设定按本科生、研究生和教工划分,见表1.这种划分一是没有结合读者的实际借阅需求,可能造成借阅需求量大的读者权限不足,借阅需求量小的读者权限过剩;二是划分不够细化,没有考虑到读者年级、专业、性别、成绩等因素对借阅量的影响.依据读者的现实个性化需求来确定借阅权限,已成为目前高校图书馆借阅权限改革的方向[7],问题在于:影响用户借阅量的因素有哪些,哪些是主要因素,如何确定这些因素,如何根据这些因素差异化权限和服务.本文针对这些问题展开讨论. 1.2 技术思路

本文收集国关图书馆的借阅数据,通过对历史数据的挖掘和分析找出影响读者借阅需求的若干因素,依靠这些因素进行借阅权限细分.具体地,本文借助于SPSS Clementine工具中的决策树挖掘方法对数据进行分析,借助于挖掘得到的决策树识别影响读者借阅量的主要因素,对借阅量按借阅频度进行分级,并构建一个判定用户借阅频度的决策树分类模型,然后基于决策树分类模型,给出针对国关图书馆读者的借阅权限建议.具体技术思路如图1所示.

2.具体的实现方案

2.1 数据源

数据源于国关图书馆金盘系统Oracle数据库,主要涉及原始数据库三个表:<流通日志表>、<馆藏书目库表>、<读者库表>.其中流通日志表记录读者每次到馆的一项事务.笔者利用这三张表进行连接,从流通日志表抽取2009-2010完整一学年的数据,抽取后的数据存储在Excel表中,命名为<流通事务记录表> (格式见表2),该表共包含记录109609条,字段8个.其中操作类型为事务类型,如J:借书/H:还书/S:赔书等;读者级别为读者身份,如本科生、研究生、信科教职工等;源单位具体到班级,如:信科0601/国经0702/国政研二等.

2.2 数据预处理

⑴ 数据筛选

取出流通事务记录表中操作类型为“J”(借书)的全部记录.

⑵ 分组计数

取出的记录集按读者条码分组,统计每个读者出现的次数,将此数值记为读者在一学年中的“借书数”.将此属性添加到<读者库表>中具有相同读者条码的记录中.未在流通事务记录表中出现的读者条码的借书数记为0.

⑶ 空缺值的处理

一些记录在“单位”字段上取值为空,用“资料不全”填充空缺值.

⑷ “借书数”区间化

对“借书数”这一数值属性,在建模前对其区间化,把它划分为几个等级来描述读者的借阅频度,并让其作为输出属性,为读者建立分类决策树.该字段原先的数值分布如图2所示.在4366个读者中,一年中读者借书数最多的为174本,平均约12本,最少的为0本(约占50%,即一般读者该年没有借过书).借过书的读者按照其累计借书量的增加,人数基本呈递减模式.

对“借书数”区间化时,先将没借过书的读者单分一个区间,即借书数等于0,记为“Null”.其余读者尽量按照等频,即相等人数的原则,分为高(high)、低(Low)两个区间,经过统计分析,发现“17”为较好的分界点,区间划分规则为:0<借书数<=17:Low;17<借书数:High.

为记录区间化后的借阅频度,为读者库表添加列“借阅频度”,来储存每位读者的年借阅量,处理后的借阅频度属性不同区间的样本数量分布为:

Null:2187;Low:1103;High:1076;总计:4366.

⑸ 其他字段的概化

“读者级别”字段中,教职人员具体到各系和各行政部门,将该字段统一归为“教职工”.“源单位”字段中,学生的单位具体到班级,将其概化到年级.将“索书号”字段概化为索书号头一位.

将预处理后的数据导入到Microsoft Access数据库中,表名命名为<读者库改>,它共包含国关4366名读者09-10学年的借书统计数据,见表3.

2.3 模型构建

利用数据挖掘工具SPSS Clementine(版本11.1)中的C5.0建模节点构建决策树模型.将预处理后的Access数据库表文件<读者库改>作为数据源节点,先后连接工具中的“选择节点”、“抽样节点”和“C5.0节点”,形成如图3所示的读者借阅频度挖掘训练流程图.

将得到的分类模型加入到流程取代“借阅频度类别”建模节点,链接相关输出节点,检验训练样本的自检正确率.之后再用原样本剩下的30%做测试,具体流程如图7所示.其中测试路径抽样节点的配置跟图6基本相同,除了将单选按钮“包含”改为“丢弃.

执行图7流程,得到模型测试结果,其中训练样本上的测试正确率为69.1%,测试样本上的正确率为67.2%.

模型分类结果与测试样本的对比矩阵见表4.该矩阵记录了得到的决策树模型对不同属性取值的分类结果和所占总样本的比例等信息.例如表4,对于测试样本中原来标注为“High”的记录,决策树准确地将其中的203条记录归类为“High”,占所有标为“High”的样本数的60.237%,占总样本数的16.009%.在所有被决策树归类为“High”的记录中,正确归类的这432条占其中的59.882%.

2.4 模型优化

在创建决策树过程中,训练样本可能存在噪声和离群点,形成异常分支,异常分枝在训练模型中表现好,但会对预测带来不良影响.因此通常需对决策树剪枝,使树的复杂度降低,更易理解,预测分类时更快更好.

在SPSS Clementine中,C5.0模型通过“修剪严重性”指标控制对决策树的修剪程度,取值为0到100,该指标值越小剪枝越少;值越大剪枝越多.为保证模型精度,并使构建的决策树简单.笔者对“修剪严重性”指标进行了不同设置和反复测试,测试结果见表5.

从表5看出,当“修剪严重性”在50-85间变化时,测试样本准确率和训练样本自检率并没有出现较大变化,而树的复杂度降低了,深度从3变为2.为了在不增加决策树深度的情况下保留较完整的决策树信息,我们将“修剪严重性”值设为50,此时树的深度为2.

最终生成的国关读者借阅频度决策树分类模型如图8所示.

集合A等于{法律(大三,研一/研二),公管大三,国经(研一/研二),国政(大二/大三,研一/研二),日法(研一/研二),文传(大一/大二/大三,研一/研二),信科(大一/大二/大三,研一/研二),英语(大一/大三/大四,研一/研二),应用化学研一} 集合B等于{法律(大一/大二/大四),公管(大一/大四),国经(大一/大三/大四),国政(大一/大四),日法(大二/大三/大四),信科大四,英语大二,应用化学研二,家属,成人教育}

集合C等于{公管大二,信科研三,应用化学研三,教职工,外教,PCP}

需说明的是,公管系在2009年至2010学年还没有研究生,故相应信息未出现在决策树分支集合中.除信科系外,其他系的研究生学制均为两年,没有研三.

2.5 模型分析和建议

模型的准确度还不够高,这可能是由于源数据缺乏更多与“借阅频度”相关的属性,可继续收集一些有关读者学习成绩(如GPA、年级排名)、距离图书馆远近等信息来为建模服务.

从图8中看出,所在单位(包括身份、专业和年级)对其借阅量影响较大,其次是“性别”.具体如下.

⑴ 借阅量高的读者(活跃读者群):文传大四女生,集合A(特别是大三的学生).约占总人数的25%.

⑵ 借阅量低的读者(一般读者群):国经大二女生,日法大一女生,集合B;约占总人数的25%.

⑶ 无借阅的读者(沉默读者群):国经大二、日法大一、文传大四的男生,集合C.约占总人数的50%.

按身份分析,大致地,本科生大二、大三的借阅需求较大,大一新生和大四毕业班学生借阅需求较小;研究生文科的借阅需求较大,理科非毕业班的借阅需求大,理科毕业班研三的借阅需求小;教职工借阅需求小.尤其是理科研三学生和教职工在09-10学年的借阅量为0,这可能是由于理科研三写论文所需要的文献大多从电子数据库中获取,而国关教职工每人每年都有充足的购书经费,使得他们更愿意自己购买图书的方式获取资料.

从上述分析结果看出,权限最低的本科生中很多群体借阅量高,而权限最高的教工的借阅量却为0,这跟表1的权限分配相悖,说明了表1权限分配的不合理性.针对国关图书馆读者的借阅权限分配,本文提出以下建议.

建议⑴:按决策树分类模型划分权限.模型中活跃读者群,借阅册数权限设为20;一般读者群,借阅册数权限设为10;沉默读者群,借阅册数权限设为5.权限划分的关键在于模型的构建和基于模型的读者分类,具体数值可根据藏书量、读者人数加以调整.

建议⑵:平均划分权限.按教育部规定,高校图书馆的生均藏书量应达到80-100册,按一个图书馆可经常利用文献量约为馆藏总量的20%计[8],理论上的每生借阅权限应在16-20之间.国关人均藏书量约为85册(37万册/4366人),因此理论上每人借阅权限应为20%×85册等于17册,考虑到国关有约50%的人基本不到图书馆借书,理论上的借阅权限还有较大上调空间.保守计算,可将借阅册数权限统一设为17,以最大程度体现“平等服务”和最大限度满足读者借阅量.

建议⑴重视读者需求差异,有助于提高文献利用率和读者需求满足率,但未考虑读者对“平等借阅权”的诉求,然而相对于表1的权限设置更为合理和科学;建议⑵重视读者借阅权的平等.

除借阅权限,图书馆还可针对不同读者群提供针对性服务,比如针对活跃读者群,图书馆可让其参与到图书购买、图书资源评价中,进行新书推荐,提供额外的培训,以提高文献资源利用率和最大限度满足读者需求.

3.结束语

图书馆的数据挖掘对提升图书馆服务质量,开发增值服务具有重要意义.本文从校图书馆的实际需求分析和数据出发,采用SPSS Clementine中的C5.O决策树算法,建立借阅频度决策树分类模型.建模结果显示,决策树模型可按借阅量对读者有效分类,读者身份、专业、年级和性别对借阅量有重要影响,本科大三学生借阅需求较大,大四学生借阅需求小.决策树模型能够帮助图书馆进行读者细分、调整借阅权限和提供差异化服务.

进一步的研究可从两个方面开展,一是收集更多年份、更多属性的数据,提高模型的准确率;二是以分析读者的借阅时长为目标,建立读者借阅时长分类模型,为图书馆针对不同读者群制定不同借阅期限提供帮助.

类似论文

RSS技术在图书馆中的应用

摘 要 :RSS订阅是web2 0时代的特征之一,本文介绍了RSS的含义及特点,论述了RSS的实现方法,并通过在自身图书馆门户网站。
更新日期:2024-11-17 浏览量:142460 点赞量:30367

微博在省级公共图书馆中的应用

〔摘 要〕微博客以其内容精短、发布方式多样等优势成为了移动互联网上最典型的新兴力量,为图书馆信息传递提供了一个更。
更新日期:2024-9-2 浏览量:17381 点赞量:5243

基于决策树的二维码恶意检测方法

【摘 要】二维码技术应用已经进入大众生活,同时也逐渐成为恶意软件传播的新途径 面向二维码中URL,提出二维。
更新日期:2024-4-23 浏览量:58610 点赞量:13773

试析决策树算法在教育统计学中的应用

数据挖掘技术及决策树简介数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中,抽取隐含在其中的、事先并不知道的、但又是。
更新日期:2024-5-23 浏览量:71597 点赞量:16618

电子信息资源在图书馆中的应用

摘 要:本文对以计算机网络技术为标志的信息化时代,电子资源在高校图书馆的采购、推广及应用进行了探讨,着重强调图书馆应。
更新日期:2024-9-27 浏览量:120086 点赞量:26118

ID3决策树在报考中的应用

摘 要:在数据挖掘中,ID3算法对于数据的分类和预测提供了一种重要的途径 该算法以信息论为基础,以信息熵和信息增益度为。
更新日期:2024-5-5 浏览量:11811 点赞量:3806