知网论文查重知网论文查重

论文在线投稿
论文范文大全
知网论文查重 zaolun.COM

基于Web日志的数据挖掘技术在Web机器人识别中的研究

万方网论文查重

摘 要:数据挖掘是从大量数据中发现人们未知的、感兴趣的、隐藏的知识。数据挖掘Web服务器日志记录具有良好的结构,非常有利于数据挖掘。由于Web服务器日志记录具有良好的结构,因此,作为Web使用挖掘的一个分支,Web日志数据数据挖掘,具有独特的理论和实践意义。本文利用决策树分类法,对Web服务器上保存的Web日志进行数据挖掘,通过对日志中所保存的信息进行分析,总结出正常用户和Web机器人访问网页的模式特点。

关键词:数据挖掘;Web日志挖掘;决策树

0.引言

Web服务器通常保存了对Web页面的一次访问的日志项(Web日志)。它包括了所请求的URL,发出请求的IP地址和时间戳。对于Web服务器,其上保存了大量的Web访问日志记录。对热点的Web站点每天可以记录下数以百兆的记录,这些为数据挖掘提供了有关Web动态的丰富的信息,因此研究复杂的Web日志挖掘技术是十分重要的。Web数据挖掘技术,从Web日志中提取有用的模式,这些模式能够揭示站点访问者的某些特性[1]。

1.决策树的建立

Web机器人(Web爬行者)是一个软件程序,它可以跟踪嵌入网页中的超链接,定位和获取Internet上的信息。这些程序安装在搜索引擎的入口,收集索引网页必须的文档。在应用Web挖掘技术分析人类的浏览习惯之前,必须过滤掉Web机器人的访问。

决策树是一种构建分类模型的非参数方法,它不要求任何先验建设,不假定类和其它属性服从一定的概率分布[2]。它具有分类精度高,生成模式简单,对噪声数据有很好的健壮性。是目前应用最广泛的归纳推理算法之一,非常适合对Web日志的数据挖掘。

图1.Web会话

输入数据取自Web 服务器日志。它的一个样本如图1所示,每行对应于Web客户(正常访客或Web机器人)的一个页面访问请求。

Web日志记录的字段包括客户端IP地址、请求时间、访问的资源、传输字节数等[3]。Web会话是客户在一次网址访问期间发出的请求序列,每个Web会话都可以用一个有向图来建模,其中结点对应于网页,有向边对用与链接网页的超链接[4],如图1。

图2.Web机器人检测决策树模型

表2. Web机器人检测的会话属性

属性名 描述

TotalPages 一次 Web会话提取的页面总数

ImagePages 一次Web会话提取的图像页总数

TotalTime 网站访问者所用时间

RepeatedAccess 一次Web会话多次请求同一页面

ErrorRequest 请求网页错误

GET 使用GET方式提出请求的百分比

POST 使用POST方式提出的请求百分比

HEAD 使用HEAD方式提出的请求百分比

Breadth Web遍历的宽度

Depth Web遍历的深度

MultiIP 使用多个IP地址的会话

MultiAgent 使用多个代理的会话

为了对Web会话进行分类,需要构造描述每次会话特性的特征。表2列出了Web机器人检测任务使用的一些特征。显著的特征有遍历的深度和宽度。深度确定请求页面的最大距离,其中距离用自网站入口点的超衔数量度量,宽度属性度量Web图的宽度。如图2,假设主页http://www.syxmt.com.cn的深度为0,则http://www.syxmt.com.cn/server/product.php的深度为2,第一次会话的深度等于2;Web会话的宽度等于2。

用于分类的数据集包含3916个记录,Web机器人(class 0)和人类用户(class 1)会话的个数相等,10%的数据用于训练,而90%的数据用于检验。生成的决策树模型显示,如图2所示。该决策树在训练集上的差错率为3.8%,在检验集上的差错率为5.3%。

3 结果分析

该模型表明可以从以下4个方面区分出Web机器人和人类用户:

Web机器人的访问倾向于宽而浅,而人类用户访问比较集中(窄而深)。

与人类用户不同,Web机器人很少访问与Web文档相关的图片页。

Web机器人的会话的长度趋于较长,包含了大量请求页面。

Web机器人更可能对相同的文档发出重复的请求,因为人类用户访问的网页常常会被浏览器保存。

参考文献

[1] 张娥,郑斐峰,冯耕中. Web日志数据挖掘的数据预处理方法研究[J]. 计算机应用研究. 2004(02)

[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民邮电出版社.2006

[3] 宋擒豹,沈钧毅. Web日志的高效多能挖掘算法[J]. 计算机研究与发展. 2001(03)

[4] 陆丽娜,魏恒义,杨怡玲,管旭东. Web日志挖掘中的序列模式识别[J]. 小型微型计算机系统. 2000(05)

万方通用版论文查重
维普编辑部版论文查重

AI论文范文,输入题目即可生成万字论文,附赠查重报告,可选开题报告、任务书

AI论文2万字符 AI开题报告 AI工作报告 AI满分作文 AI个人总结