Menu
WEB日志挖掘实现网站优化
2008-03-26 15:14:41
Web数据挖掘是应用于Internet的研究,是从半结构化或无结构的Web页面中。抽取感兴趣的、潜在的模式。当前研究的主要有三种技术:Web内容挖掘、Web结构挖掘、Web使用挖掘。针对Internet的研究它是一个半结构化的系统,很难对它进行处理,但Web服务器中的日志记录具有良好的数据结构,非常有利于数据挖掘的进行。Web日志挖掘是web使用挖掘的一个分支它作为Web挖掘的一个重要组成部分,具有独特的理论和实践意义。

      Web日志挖掘的定义Web日志是指在服务器上有关Web访问的各种日志文件,包括访问日志、引用日志、代理日志、错误日志等文件,这些文件中包含了大量的用户访问信息,如用户的IP地址、所访问的uRL、访问日期和时间、访问方法(GET或POST)、访问结果(成功、失败、错误),访问的信息大小等。Web日志挖掘是将数据挖掘应用于Web日志记录文件,发现用户浏览模式,分析站点的使用情况。还可应用于协助管理者优化站点结构,提高站点的访问效率,构造合理的Web服务器。提高用户访问的有效性。这对于优化web站点来说非常有意义。

      Web日志挖掘的过程

      数据收集Web13志挖掘可以通过各个方面对13志文件进王春霞:讲师硕士基金项目:河南省教育厅自然科学基金资助项目行收集,例如从服务器端数据收集、客户端数据收集、代理服务器端数据收集。

      数据预处理

      数据净化数据净化是指删除web服务器13志中与挖掘算法无关的数据。一般来说只有13志中HTML文件与用户会话相关。用户一般不会显式地请求页面上的图形文件。它们是根据HTML的超文本引用标记自动下载的。web13志文件的目的是获得用户的行为模式并不关心那些用户没有显式请求的文件。所以通过检查URL的后缀删除认为不相关的数据。例如:将日志中文件的后缀名为GIF、JPEG、JPG等的图形文件删除。另外,后缀名为CGI的脚本文件也应被删除。具体到实际的系统就使用一个缺省的后缀名列表帮助删除文件。列表可以根据正在分析的站点类型进行修改,例如:对一个主要包含图形文档的站点。日志中GIF和JPEG文件可能代表了用户的请求。此时就不能将图形文件删除。进行数据净化的还有一个方面,比如:有些网站的页面用户在提出请求时。Web服务器拒绝该页面的请求。那么应该过滤掉非法请求的页面,对正常的页面进行数据处理是很有价值的。但是如果考虑的是网络安全方面的问题。就另当别论考虑非法请求的页面的情况。

      用户识别识别用户对于会话识别特别是为用户提供个性化的服务非常重要,目前由于本地缓存代理服务器和防火墙的存在、为用户动态的分配IP地址想要识别出每一个用户变得很复杂。

      针对用户的识别有几种最可能的解决办法:

      如果IP地址相同,但是代理日志中表明用户的浏览器或操作系统改变了,就应当认为每个不同的代理就表示不同的用户。将用户的访问日志和站点的拓扑结构结合,构造用户的浏览路径。如果当前请求的页面同用户已浏览的页面之间没有链接关系。那么就认为存在另外具有相同IP地址的多个用户不同的IP就认为就是不同的用户。Cookie是由Web服务器产生的记号存在于客户端(用户的机器),用于识别用户的会话。它是一种自动跟踪Web站点访问者的标记。当用户对Web资源提出请求时将为该用户产生唯一的Cookie用于识别对话。在随后的请求中,浏览器将该唯一的Cookie发送回服务器用来识别对话

      会话识别在跨越时间区段较大的Web服务器日志中,用户可能多次访问了该站点。会话识别的目的就是将用户的访问记录分为单个会话。最简单的方法是利用超时,如果两页间请求时间的差值超过一定的界限就认为用户开始了一个新的会话。JPitkow的实验证明,比较合理的时间长度应该是255分钟。这种方法很简单但是准确性很差。还有一种方法是访问日志法,它能划分同一IP的并发访问但存准确性仍存在局限性。

      路径补充在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录。这就是路径补充所做的工作,解决的方法类似于用户识别中的方法。如果当前请求的页与用户上一次请求的页之间没有超文本链接那么用户很可能使用了浏览器上的“BACK”按钮调用缓存在本机中的页面。检查访问日志确定当前请求页的页面作为当前请求的来源。若访问日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。

      Web日志挖掘的应用一优化Web站点

      优化Web站点步骤优化Web站点方法很简单,需要对日志文件进行预处理、模式识别最后是模式分析。其步骤为:先进行预处理去掉不相关的数据项减少数据库的存储空间。比如:操作系统和浏览器、文件大小等等。模式识别是得到一个用户访问的页面数据库,并且是按照针对不同的用户所访问页面的字母序的形式排列;字母序有助于挖掘的快速进行。模式分析就是利用数据挖掘的算法解决实际性的问题。在优化网站设计时,就是将每一个用户访问的页面抽象为点而页面到页面之间链接抽象为线这样就构造出很多用户的拓扑结构图,然后找出这些图之间的相关性及其从一些页面到另一些页面之间的最高访问频率,最后可构造出整个web站点的拓扑图。可将整个的WEB站点的所有页面抽象为数字,那么可以得出很多路径的数字排序。我们可以利用聚类中的页面聚类找出这些数字之间的相关性很容易得出页面到页面间的访问频度。最后找出页面访问频度最高的路径就是要构造该网站的拓扑结构图。根据该网站的拓扑结构图,重新构建该网站,进而提高网站的利用率。

      优化Web站点算法构造网站的部分算法的说明:首先将整个Web站点可以看成是一个完全图,因为它的每个Web页都有一条从主页到该页面的链接,反过来一般也都有后退和返回按钮。我们可以现将整个的页面做一个映射,主页记为1,其次,它的链接页面可以定义为2,顺序3,4,13。下面可以根据论文中上述知识找出每一个用户的访问页面路径。将路径的信息转换成矩阵的形式去做,实现起来比较方便。

      结束语优化Web站点是通过Web日志分析系统挖掘的结果,改进站点信息的组成结构,调整网站的内容,形成用户感兴趣的web页,然后存在web服务器上,最后当用户访问的时候显示给用户,使之更好地为用户提供服务。

 
  • 宏瑞官方公众号

    宏瑞官方公众号
  • 响应式客户端

    客服微信

关于我们

扬州宏瑞科技有限公司成立于2008年初,主要从事品牌网站建设\
高端网站定制\软件定制开发\微信小程序开发,服务客户超过1000家。
致力于为企业提供可靠的网站建设解决方案。

免费通话
在线QQ


点击QQ聊天
客服微信

扫一扫
加客服微信

服务热线
0514-87330378

在线留言
返回顶部