网络挖掘代表我的网站
Web Mining Represent My Website
在我的网站上有很多页面和文件,一些页面有一个 link 到另一个页面。
在数据挖掘或 Web 挖掘中表示整个网站的最佳方式是什么?最好的技术是什么?我应该使用网络内容挖掘还是网络使用挖掘?
我想首先你可能知道网络挖掘到底在做什么:
网络数据为:
- 网页内容——文字、图片、记录等
- 网络结构——超链接、标签等
- Web 使用 – http 日志、应用服务器日志等
Web 内容:
从表示 Web 文档的 Web 文档中提取“片段”。
这意味着Web内容挖掘是从您可能需要在这里使用的Web文档的内容中提取有用信息的过程(信息检索(IR)和自然语言
处理(NLP))
但首先您需要对内容进行一些预处理阶段,例如:
- 从 HTML 中提取文本。
- 删除停用词。
- 计算集合宽字频率 (DF)。
- 计算每个文档的词频 (TF)。
Web 内容的常用挖掘技术是(分类、聚类和关联)。
网络结构:
识别有趣的图表模式或预处理整个网络图表以得出诸如 PageRank 之类的指标。
所以Web结构挖掘就是一个典型的Web图的结构是由网页作为节点,超链接作为连接两个相关页面的边,是从Web中发现结构信息的过程,我认为这是您的问题范围。
在您的案例中,您可以在此处使用什么术语它是 Graph(直接图),其中:
Web-graph:表示 Web 的有向图。
节点:每个网页都是网络图的一个节点。
Link:Web 上的每个超链接都是 Web 图的一条有向边。
入度:节点的入度p是指向p的不同链接的数量。
出度:节点的出度 p 是源自其他节点的不同链接的数量。
有向路径:一系列链接,从 p 开始可以到达 q。
网络使用:
用户识别、会话创建、机器人检测和过滤以及提取使用路径模式
在我的网站上有很多页面和文件,一些页面有一个 link 到另一个页面。
在数据挖掘或 Web 挖掘中表示整个网站的最佳方式是什么?最好的技术是什么?我应该使用网络内容挖掘还是网络使用挖掘?
我想首先你可能知道网络挖掘到底在做什么:
网络数据为:
- 网页内容——文字、图片、记录等
- 网络结构——超链接、标签等
- Web 使用 – http 日志、应用服务器日志等
Web 内容:
从表示 Web 文档的 Web 文档中提取“片段”。
这意味着Web内容挖掘是从您可能需要在这里使用的Web文档的内容中提取有用信息的过程(信息检索(IR)和自然语言 处理(NLP))
但首先您需要对内容进行一些预处理阶段,例如:
- 从 HTML 中提取文本。
- 删除停用词。
- 计算集合宽字频率 (DF)。
- 计算每个文档的词频 (TF)。
Web 内容的常用挖掘技术是(分类、聚类和关联)。
网络结构:
识别有趣的图表模式或预处理整个网络图表以得出诸如 PageRank 之类的指标。
所以Web结构挖掘就是一个典型的Web图的结构是由网页作为节点,超链接作为连接两个相关页面的边,是从Web中发现结构信息的过程,我认为这是您的问题范围。
在您的案例中,您可以在此处使用什么术语它是 Graph(直接图),其中:
Web-graph:表示 Web 的有向图。
节点:每个网页都是网络图的一个节点。
Link:Web 上的每个超链接都是 Web 图的一条有向边。
入度:节点的入度p是指向p的不同链接的数量。
出度:节点的出度 p 是源自其他节点的不同链接的数量。
有向路径:一系列链接,从 p 开始可以到达 q。
网络使用:
用户识别、会话创建、机器人检测和过滤以及提取使用路径模式