在将数据转换为直方图之前如何重塑数据?
How can I reshape my data before I turn it into a histogram?
假设我有一个访问索引,其中包含 'visit' 类型的文档,如下所示:
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
// other properties
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"arrivalDateTimeUtc": "2015-12-22T21:15:00Z"
}
以下函数将 return 一个直方图,其中 returns 桶根据给定时区在给定范围内每天的访问量。
public Bucket<HistogramItem> Execute(MyParameterType parameters)
{
var buildingFilter = Filter<VisitProjection>.Term(x => x.BuildingId, parameters.BuildingId);
var dateFilter = Filter<VisitProjection>.Range(r => r
.OnField(p => p.ArrivalDateTimeUtc)
.GreaterOrEquals(parameters.EarliestArrivalDateTimeUtc)
.LowerOrEquals(parameters.LatestArrivalDateTimeUtc)
);
var result = _elasticClient.Search<VisitProjection>(s => s
.Index("visits")
.Type("visit")
.Aggregations(a => a
.Filter("my_filter_agg", f => f
.Filter(fd => buildingFilter && dateFilter)
.Aggregations(ta => ta.DateHistogram("my_date_histogram", h => h
.Field(p => p.ArrivalDateTimeUtc)
.Interval(parameters.DateInterval) // "day"
.TimeZone(NodaTimeHelpers.WindowsToIana(parameters.TimeZoneInfo)) // This is a critical piece of the equation.
.MinimumDocumentCount(0)
)
)
)
)
);
return result.Aggs.Nested("my_filter_agg").DateHistogram("my_date_histogram");
}
}
// Returns [{Date: 12/22/2015 12:00:00 AM, DocCount: 1}]
现在想象一下我做了一些改变。假设我在文档中添加了一个新字段:
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
// other properties
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"arrivalDateTimeUtc": "2015-12-22T21:15:00Z",
"departureDateTimeUtc": "2015-12-23T22:00:00Z" // new property
}
并假设我想要 return 以下内容:
// Returns [{Date: 12/22/2015 12:00:00 AM, DocCount: 1}, {Date: 12/23/2015 12:00:00 AM, DocCount: 1}]
因为访问跨越了两天,我想要一个日期直方图来记录访问跨越的每一天的一个单位。
我如何使用 NEST/Elastic 搜索来执行此操作?
注意 1:除非有人说服我,否则我认为收集范围内的所有文档并在中间层(或 C#)执行 aggregation/bucketization 和日期直方图不是一个好主意层)。
注意 2:此问题的时区方面很关键,因为我需要根据给定时区对计数进行分桶。
一种方法是使用 scripted_metric
aggregation 并根据您的两个日期字段自行执行分桶。非常复杂而且性能不佳,具体取决于您拥有多少文档。
但是,另一个更简单的解决方案可能是使用单个日期字段并将间隔的所有日期放入一个数组中(首先到达,最后离开以及介于两者之间的所有其他日期),如下所示:
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"visitDateTimeUtc": ["2015-12-22T21:15:00Z", "2015-12-23T22:00:00Z" ]
}
如果一次访问跨越 three/four/etc 天,您可以 "fill" 包含到达和离开之间天数的数组
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"visitDateTimeUtc": ["2015-12-22T21:15:00Z", "2015-12-23T22:00:00Z", "2015-12-24T22:00:00Z", "2015-12-25T22:00:00Z" ]
}
通过这样做,您的 date_histogram
聚合将考虑间隔的所有日期。
我会考虑通过在你的 VisitDays
的 ES 模型上使用一个新数组 属性 来解决这个问题,所以如果有人从 2015 年 1 月 1 日到 2015 年 1 月 5 日逗留,那么你的模型将是这样的:
{
"id" : "c223a991-b4e7-4333-ba45-a576010b568b",
// other properties
"buildingId" : "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"arrivalDateTimeUtc" : "2015-01-01T21:15:00Z",
"departureDateTimeUtc" : "2015-01-05T22:00:00Z", // new property
"visitDays" : [
"2015-01-01",
"2015-01-02",
"2015-01-03",
"2015-01-04",
"2015-01-05"
]
}
如果你这样做了,那么你的分桶将非常容易和非常快。脚本字段不会很快。您 100% 正确地认为,尝试在 C# 中执行此操作是行不通的,因为它太慢了。
假设我有一个访问索引,其中包含 'visit' 类型的文档,如下所示:
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
// other properties
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"arrivalDateTimeUtc": "2015-12-22T21:15:00Z"
}
以下函数将 return 一个直方图,其中 returns 桶根据给定时区在给定范围内每天的访问量。
public Bucket<HistogramItem> Execute(MyParameterType parameters)
{
var buildingFilter = Filter<VisitProjection>.Term(x => x.BuildingId, parameters.BuildingId);
var dateFilter = Filter<VisitProjection>.Range(r => r
.OnField(p => p.ArrivalDateTimeUtc)
.GreaterOrEquals(parameters.EarliestArrivalDateTimeUtc)
.LowerOrEquals(parameters.LatestArrivalDateTimeUtc)
);
var result = _elasticClient.Search<VisitProjection>(s => s
.Index("visits")
.Type("visit")
.Aggregations(a => a
.Filter("my_filter_agg", f => f
.Filter(fd => buildingFilter && dateFilter)
.Aggregations(ta => ta.DateHistogram("my_date_histogram", h => h
.Field(p => p.ArrivalDateTimeUtc)
.Interval(parameters.DateInterval) // "day"
.TimeZone(NodaTimeHelpers.WindowsToIana(parameters.TimeZoneInfo)) // This is a critical piece of the equation.
.MinimumDocumentCount(0)
)
)
)
)
);
return result.Aggs.Nested("my_filter_agg").DateHistogram("my_date_histogram");
}
}
// Returns [{Date: 12/22/2015 12:00:00 AM, DocCount: 1}]
现在想象一下我做了一些改变。假设我在文档中添加了一个新字段:
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
// other properties
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"arrivalDateTimeUtc": "2015-12-22T21:15:00Z",
"departureDateTimeUtc": "2015-12-23T22:00:00Z" // new property
}
并假设我想要 return 以下内容:
// Returns [{Date: 12/22/2015 12:00:00 AM, DocCount: 1}, {Date: 12/23/2015 12:00:00 AM, DocCount: 1}]
因为访问跨越了两天,我想要一个日期直方图来记录访问跨越的每一天的一个单位。
我如何使用 NEST/Elastic 搜索来执行此操作?
注意 1:除非有人说服我,否则我认为收集范围内的所有文档并在中间层(或 C#)执行 aggregation/bucketization 和日期直方图不是一个好主意层)。
注意 2:此问题的时区方面很关键,因为我需要根据给定时区对计数进行分桶。
一种方法是使用 scripted_metric
aggregation 并根据您的两个日期字段自行执行分桶。非常复杂而且性能不佳,具体取决于您拥有多少文档。
但是,另一个更简单的解决方案可能是使用单个日期字段并将间隔的所有日期放入一个数组中(首先到达,最后离开以及介于两者之间的所有其他日期),如下所示:
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"visitDateTimeUtc": ["2015-12-22T21:15:00Z", "2015-12-23T22:00:00Z" ]
}
如果一次访问跨越 three/four/etc 天,您可以 "fill" 包含到达和离开之间天数的数组
{
"id": "c223a991-b4e7-4333-ba45-a576010b568b",
"buildingId": "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"visitDateTimeUtc": ["2015-12-22T21:15:00Z", "2015-12-23T22:00:00Z", "2015-12-24T22:00:00Z", "2015-12-25T22:00:00Z" ]
}
通过这样做,您的 date_histogram
聚合将考虑间隔的所有日期。
我会考虑通过在你的 VisitDays
的 ES 模型上使用一个新数组 属性 来解决这个问题,所以如果有人从 2015 年 1 月 1 日到 2015 年 1 月 5 日逗留,那么你的模型将是这样的:
{
"id" : "c223a991-b4e7-4333-ba45-a576010b568b",
// other properties
"buildingId" : "48da1a81-fa73-4d4f-aa22-a5750162ed1e",
"arrivalDateTimeUtc" : "2015-01-01T21:15:00Z",
"departureDateTimeUtc" : "2015-01-05T22:00:00Z", // new property
"visitDays" : [
"2015-01-01",
"2015-01-02",
"2015-01-03",
"2015-01-04",
"2015-01-05"
]
}
如果你这样做了,那么你的分桶将非常容易和非常快。脚本字段不会很快。您 100% 正确地认为,尝试在 C# 中执行此操作是行不通的,因为它太慢了。