如何分析大量的 URI 日志

How to analyze large amount of URI logs

我的网络上有大约 100 万条用户 activity 的 URI 日志，我想知道这 100 万条中有多少是 Facebook 的，有多少是 Twitter 的，等等。 link 像 cdn.xyz.twitter.com , platform.twitter.com 这样的 URI 到 Twitter 很容易但是，我面临的问题是我无法 link 将不超过 40% 的 URL 捕获到真实网站，像 xys 这样的 URL。[=例如，24=] 可以是 facebook 中的内容，但是 URL 和 facebook.com 域之间没有 link，因此只会被列为独立网站，是错误的（或者不是我想要的）。

此外，所有 API 调用也不会轻易 link 进入他们的域，因为某些网站可能正在使用亚马逊网络服务，这就是正在记录的内容。

而且很多URI都是从广告服务生成的，我想知道这个广告是从哪里生成的（用户在什么网站或移动应用程序上点击了广告？）。

URI 快照，以便您了解全貌。

https://imgur.com/a/2Ocqi https://imgur.com/a/bmhNv

所以您要匹配传出请求？您如何知道访问 xyz.1234.com 的用户是通过 Facebook 访问的，而不是通过在地址栏中输入 URL 独立访问的？或者通过单击其他页面上的 link？您的日志不包含告诉您哪些 URL 是从哪个页面 link 编辑的信息。没有其他信息来源，您无法确定。

您可以检查多个用户的请求并推断关系。也就是说，如果您注意到对 xyz.1234.com 的所有（或大部分）请求都发生在 Facebook 请求之后，您可以推断该请求是由于点击 Facebook 页面而发生的。这样做需要一些有趣的模式匹配。它的效果如何将取决于您必须处理多少数据、您编写模式匹配的程度以及您愿意让算法花费多少时间运行.

不过，没有简单的答案。如果您没有明确说明的数据，"this request was made by clicking on a link from Twitter," 那么您必须获取其他信息来源，或者您必须编写能够推断该信息的代码。

如何分析大量的 URI 日志

How to analyze large amount of URI logs

algorithm

uri

analysis