摘 要:本文通过读者借阅日志和读者信息的高维数据进行聚类分析,并将其借阅次数进行加权筛选,即时推荐该类图书的新书或热门书给读者,提高图书馆的业务绩效。
关键词:模糊聚类;读者兴趣取向
注:此文系中华人民共和国教育部人文社会科学研究青年基金项目 (No.10YJC870037)。
图书贵在流通,以读者为导向,创新图书馆服务已然成为泛在图书馆发展的必然。高校图书馆的读者服务,必须遵循“以读者为中心”,及时定向地为读者提供个性化的推荐图书服务。那么,如何实现技术支撑保障,快捷准确,真正意义上的“一对一”推荐服务,是每个馆员思考的问题。如何才能实现以用户需求为导向为用户提供适时、适当的个性化服务已然成为图书馆未来发展的研究重点和必然。对用户真实的、个性化的需求挖掘成为图书馆信息服务和系统设计的重要依据。在泛在知识环境的大背景下。
1 模糊聚类分析概念
模糊聚类分析是以模糊理论为依据,用模糊的方法,按照一定的要求和规律对事物进行区分和分类来处理聚类问题。它得到样本是客观的反映现实世界。
2 模糊聚类样本矩阵确定
选取图书馆读者借阅信息、馆藏文献信息等公共性数据进行聚类分析。数据来源服务器端日志数据和读者注册数据。按照中图法,书籍可分22个子类,即其书类集Type={A,B,…,Z},如果有n个读者成功借阅图书,即读者集Reader={Reader1,Reader2,…Readern}。因此,该图书馆的图书借阅情况就被映射成一个ReaderType矩阵。其中行表示已被借阅的书类集,列表示可借阅的读者集,每个元素项tij表示读者Readeri对某类书Typej的借阅次数Quantity,,反映读者对该类图书的借阅兴趣度。我们构建了如下10000*22数据矩阵ReaderType(如表1)。
3 聚类分析验证
利用这些数据对这10000位读者进行聚类分析,将兴趣取向近似的读者归为同一类,聚类的结果就是这512个读者被自动分为8类(如图2)。
例如:已知Reader1,Reader20,Reader140,Reader230,Reader663,Reader915,…,被归为一类C1,读者Reader1可能仅仅借阅了O类的图书,但是由于C1类的读
者普遍会借阅{O,TP}这两类的图书,因此可以推断读者Reader1也会借阅TP类的图书,馆员可以提前将TP类的新书或热门书推荐给这位读者。
6 推送书籍读者的正负反馈
众所周知,读者的历史借阅记录真实反映其兴趣爱好。其一,依据对读者借阅历史记录的聚类分析,推荐算法的结果。其二,根据读者登录信息找出其所属的兴趣组。当读者反馈的意见和推荐的结果不相符合,出现负反馈时,说明该兴趣组的读者,在这段时期内其兴趣对象发生了变化,需要重新聚类更新读者兴趣度分组。通过读者反馈几次反复,最终得到了某兴趣组读者可信的推荐结果。
7 本文HSFC的模糊聚类创新点:
(1)在动态聚类中心数量中,采用评价函数最小的一组聚类中心,作为算法最终的结果,自动找寻正确或合理的聚类中心数;(2)通过特征属性加权,提高了聚类准确性;
文献文献
[1]焦秋阳,许增朴.高校图书馆科技查新概论[J].中国轻工教育,2009,4(4):40-42,86.
[2]教育部科技发展中心.教育部关于在东北师范大学等10所法人机构设立第四批教育部部级科技查新工作站的通知[EB/OL].http:∥,2009-01-21.
[3]徐慧芳,陈朝晖,郑菲.科技查新业务分析———以中国科学院国家科学图书馆总馆为例[J].图书情报工作,2007,11(11):106-110.
[4]董政娥,吴素坤,陈惠兰,等.科技查新需求分析及其增值服务探讨[J].现代情报,2009,7(7):153-156.