网络挖掘代表我的网站

Web Mining Represent My Website

在我的网站上有很多页面和文件,一些页面有一个 link 到另一个页面。

在数据挖掘或 Web 挖掘中表示整个网站的最佳方式是什么?最好的技术是什么?我应该使用网络内容挖掘还是网络使用挖掘?

我想首先你可能知道网络挖掘到底在做什么:

网络数据为:

  • 网页内容——文字、图片、记录等
  • 网络结构——超链接、标签等
  • Web 使用 – http 日志、应用服务器日志等

Web 内容:

从表示 Web 文档的 Web 文档中提取“片段”。

这意味着Web内容挖掘是从您可能需要在这里使用的Web文档的内容中提取有用信息的过程(信息检索(IR)和自然语言 处理(NLP))

但首先您需要对内容进行一些预处理阶段,例如:

  • 从 HTML 中提取文本。
  • 删除停用词。
  • 计算集合宽字频率 (DF)。
  • 计算每个文档的词频 (TF)。

Web 内容的常用挖掘技术是(分类、聚类和关联)。

网络结构:

识别有趣的图表模式或预处理整个网络图表以得出诸如 PageRank 之类的指标。

所以Web结构挖掘就是一个典型的Web图的结构是由网页作为节点,超链接作为连接两个相关页面的边,是从Web中发现结构信息的过程,我认为这是您的问题范围。

在您的案例中,您可以在此处使用什么术语它是 Graph(直接图),其中:

  • Web-graph:表示 Web 的有向图。

  • 节点:每个网页都是网络图的一个节点。

  • Link:Web 上的每个超链接都是 Web 图的一条有向边。

  • 入度:节点的入度p是指向p的不同链接的数量。

  • 出度:节点的出度 p 是源自其他节点的不同链接的数量。

  • 有向路径:一系列链接,从 p 开始可以到达 q。

网络使用:

用户识别、会话创建、机器人检测和过滤以及提取使用路径模式