使用重叠在 0 到 100 之间缩放的两个集合之间进行转换
Converting between two sets scaled between 0 and 100 using overlap
我正在尝试缩放 google 每 10 分钟按分钟接收的趋势数据。如果您不熟悉 google 趋势,每个响应都会根据当前响应中的最小值和最大值在 0 到 100 之间缩放。因此,对不同但重叠的时间间隔的两个不同请求可以在同一时间具有不同的值(即来自 4:30-5:30 的请求和对 5-6 的请求可能具有不同的 5 值)。
我试图做的是缩放相对于我收集趋势数据的前 4 小时间隔的所有值。每 10 分钟,将收集一个新的 4h 块,这意味着大部分时间将与前一个块重叠。是否可以利用这种重叠来缩放相对于第一个间隔的所有新值?
注意:新值可以是gt 100
假设您的初始 four-hour window 和任何经过缩放过程的数据是 'good.'
假设我们的好数据在时间 T 结束,我们有一个新的 4 小时 window 数据在时间 T+10 结束。
我们新 window 中的数据与良好数据之间的唯一区别是比例因子。新的 window 与好的数据有共同点的每一分钟都可以为缩放因子投票,我们需要制作新数据 'good':缩放因子 = (good value) / (new value).
通常我会使用投票的中位数来做这样的事情,但是因为数据太粗糙了,所以你有可能在数据中有 'cliffs',尤其是中位数可能旁边是一个明显更大或更小的数字。出于这个原因,我建议通过消除两个方向上的 k 个异常值,然后取剩余选票的平均值来生成选票的比例因子。
如果你想要更多的选票,你可以在 non-adjacent 4 小时的时间段内获得它们(尽管显然 returns 有限)。
--- 示例 ---
在初始 window 中说,搜索峰值是 1000。这意味着 window 的比例因子是 0.10,这将导致搜索峰值 Google 显示为我们是 100.
接下来 window 我们有一个新的峰值 2000。现在,这些峰值对我们来说是看不见的,但我们确实看到的是 windows 中存在的每个点新 window 的价值是旧 window 的一半。由于投票(如上所述)是(良好价值)/(新价值),我们有一堆接近 2.0 的投票(由于粗糙和四舍五入,接近不准确)。
因此,我们将 10 个新值中的每一个乘以 2.0,以将它们转换为良好的比例。零值不变,因为无论比例如何,没有搜索就是没有搜索。
我正在尝试缩放 google 每 10 分钟按分钟接收的趋势数据。如果您不熟悉 google 趋势,每个响应都会根据当前响应中的最小值和最大值在 0 到 100 之间缩放。因此,对不同但重叠的时间间隔的两个不同请求可以在同一时间具有不同的值(即来自 4:30-5:30 的请求和对 5-6 的请求可能具有不同的 5 值)。
我试图做的是缩放相对于我收集趋势数据的前 4 小时间隔的所有值。每 10 分钟,将收集一个新的 4h 块,这意味着大部分时间将与前一个块重叠。是否可以利用这种重叠来缩放相对于第一个间隔的所有新值?
注意:新值可以是gt 100
假设您的初始 four-hour window 和任何经过缩放过程的数据是 'good.'
假设我们的好数据在时间 T 结束,我们有一个新的 4 小时 window 数据在时间 T+10 结束。
我们新 window 中的数据与良好数据之间的唯一区别是比例因子。新的 window 与好的数据有共同点的每一分钟都可以为缩放因子投票,我们需要制作新数据 'good':缩放因子 = (good value) / (new value).
通常我会使用投票的中位数来做这样的事情,但是因为数据太粗糙了,所以你有可能在数据中有 'cliffs',尤其是中位数可能旁边是一个明显更大或更小的数字。出于这个原因,我建议通过消除两个方向上的 k 个异常值,然后取剩余选票的平均值来生成选票的比例因子。
如果你想要更多的选票,你可以在 non-adjacent 4 小时的时间段内获得它们(尽管显然 returns 有限)。
--- 示例 ---
在初始 window 中说,搜索峰值是 1000。这意味着 window 的比例因子是 0.10,这将导致搜索峰值 Google 显示为我们是 100.
接下来 window 我们有一个新的峰值 2000。现在,这些峰值对我们来说是看不见的,但我们确实看到的是 windows 中存在的每个点新 window 的价值是旧 window 的一半。由于投票(如上所述)是(良好价值)/(新价值),我们有一堆接近 2.0 的投票(由于粗糙和四舍五入,接近不准确)。
因此,我们将 10 个新值中的每一个乘以 2.0,以将它们转换为良好的比例。零值不变,因为无论比例如何,没有搜索就是没有搜索。