如何分析大量的 URI 日志

How to analyze large amount of URI logs

我的网络上有大约 100 万条用户 activity 的 URI 日志,我想知道这 100 万条中有多少是 Facebook 的,有多少是 Twitter 的,等等。 link 像 cdn.xyz.twitter.com , platform.twitter.com 这样的 URI 到 Twitter 很容易 但是,我面临的问题是我无法 link 将不超过 40% 的 URL 捕获到真实网站,像 xys 这样的 URL。[=例如,24=] 可以是 facebook 中的内容,但是 URL 和 facebook.com 域之间没有 link,因此只会被列为独立网站,是错误的(或者不是我想要的)。

此外,所有 API 调用也不会轻易 link 进入他们的域,因为某些网站可能正在使用亚马逊网络服务,这就是正在记录的内容。

而且很多URI都是从广告服务生成的,我想知道这个广告是从哪里生成的(用户在什么网站或移动应用程序上点击了广告?)。

URI 快照,以便您了解全貌。

https://imgur.com/a/2Ocqi https://imgur.com/a/bmhNv

所以您要匹配传出请求?您如何知道访问 xyz.1234.com 的用户是通过 Facebook 访问的,而不是通过在地址栏中输入 URL 独立访问的?或者通过单击其他页面上的 link?您的日志不包含告诉您哪些 URL 是从哪个页面 link 编辑的信息。没有其他信息来源,您无法确定。

您可以检查多个用户的请求并推断 关系。也就是说,如果您注意到对 xyz.1234.com 的所有(或大部分)请求都发生在 Facebook 请求之后,您可以推断该请求是由于点击 Facebook 页面而发生的。这样做需要一些有趣的模式匹配。它的效果如何将取决于您必须处理多少数据、您编写模式匹配的程度以及您愿意让算法花费多少时间 运行.

不过,没有简单的答案。如果您没有明确说明的数据,"this request was made by clicking on a link from Twitter," 那么您必须获取其他信息来源,或者您必须编写能够推断该信息的代码。