检查 object_id 是否在 queryset.annotate Case When 参数中多次出现
Check if object_id occurs more than once in queryset.annotate Case When parameter
文档字段查找对我的情况没有多大帮助
我的查询现在是什么样的
date_delta = 2
queryset = TrendData.objects.filter(owner__trend_type__mnemonic='posts',
date_trend__date__range=[date_from, date_to]).values('owner_id', 'owner__name')
queryset.annotate(owner_name=F('owner_id__name')).values('owner_name', 'owner_id').annotate(
views = Sum(Case(When(owner_id__gt=1, then=F('views') / date_delta)), default=('views')...,
output_field=IntegerField() )
)
queryset
输出如下所示:
{'owner_id': 1306, 'owner__name': 'Some name123'},
{'owner_id': 1307, 'owner__name': 'Somename as well'},
{'owner_id': 1308, 'owner__name': 'aand another name'},
{'owner_id': 1306, 'owner__name': 'Some name123'}
如您所见,有匹配的 owner_id,并且查询集 len() 每天 100k,因此如果日期范围是 5 天,则查询集 len() == 500k。
我的 models.py 看起来像这样
class Owner(models.Model):
class Meta:
verbose_name_plural = 'Objects'
TREND_OWNERS = Choices('group', 'user')
link = models.CharField(max_length=255)
name = models.CharField(max_length=255)
owner_type = models.CharField(choices=TREND_OWNERS, max_length=50)
trend_type = models.ForeignKey(TrendType, on_delete=models.CASCADE)
def __str__(self):
return f'{self.link}[{self.trend_type}]'
class TrendData(models.Model):
class Meta:
verbose_name_plural = 'Trends'
owner = models.ForeignKey(Owner, on_delete=models.CASCADE)
views = models.IntegerField()
views_u = models.IntegerField()
likes = models.IntegerField()
shares = models.IntegerField()
interaction_rate = models.DecimalField(max_digits=20, decimal_places=10)
mean_age = models.IntegerField()
date_trend = models.DateTimeField()
我意识到它会工作得很好,但这是错误的,因为如果 owner_id 很好,它会除以 date_delta,在我的情况下,如果 owner_id在查询集中出现不止一次。我试过 owner_id__count__gt
但那不存在 :(
我很想知道是否有一种方法可以在我的注释 Case(When())
查询集中计算 owner_id 的出现次数。这将真正解决我的问题。
如果它大于 1,我们除以 date_delta,否则我们保持原样
更新:
明确一点,这个注释做得很好,但是它也划分了一些我不想划分的查询(在我的例子中,非重复 owner_id 查询集仍然划分它的视图,分享等等 2) 所以这就是为什么我使用上面提到的 Case(When())
queryset.values('owner__name', 'owner_id').annotate(
views=Sum('views') / 2,
views_u=Sum('views_u') / 2,
likes=Sum('likes') / 2,
shares=Sum('shares') / 2,
interaction_rate=Sum('interaction_rate') / 2,
mean_age=Sum('mean_age') / 2)
更新#2
这是我的逻辑,但在 python
json_output = []
for item in (queryset
.values('owner__name', 'owner_id')
.annotate(owner_count=Count('owner_id'))
.annotate(views=Sum('views'), views_u=Sum('views_u'),
likes=Sum('likes'),
shares=Sum('shares'),
interaction_rate=Sum('interaction_rate'),
mean_age=Sum('mean_age')):
if item['owner_count'] > 1:
item['views'] = item['views'] / date_delta
item['views_u'] = item['views_u'] / date_delta
item['likes'] = item['likes'] / date_delta
item['shares'] = item['shares'] / date_delta
item['interaction_rate'] = '{:.10f}'.format(
Decimal(item['interaction_rate']) / date_delta)
item['mean_age'] = item['mean_age'] / date_delta
json_output.append(item)
else:
json_output.append(item)
首先,我认为这是错误的owner_name=F('owner_id__name'
应该是
owner_name=F('owner__name'
.
如果我理解,您想用拥有所有者的 TrendData 实例的数量来注释 TrendData 查询集。
您可以使用 Subquery 来实现:
owner_td_count = Owner.objects.annotate(
td_count=Count('trenddata_set')
).filter(
id=OuterRef('owner_id')
).values('td_count')[:1]
然后首先通过计算 owner_id:
的出现次数进行注释
queryset.annotate(
owner_name=F('owner__name'),
owner_id_count=Subquery(owner_td_count) # How many DataTrend's have the owner with id=owner_id
).values('owner_name', 'owner_id').annotate(
# ...
)
)
那你可以在你Case/when构造:
Case(
When(
owner_id_count=1, then=F('views'),
default=F('views') / date_delta)),
output_field=IntegerField()
)
)
更新:
事实证明我毕竟没有对此进行全面测试(我以为我有,抱歉)。您需要将 Case
包裹在 Sum
周围,反之(Sum
在 Case
周围)无论 Django 版本如何都不起作用:
(queryset
.values('owner', owner_name=F('owner__name'))
.annotate(owner_count=Count('owner'))
.annotate(views = Case(
When(owner_count__gt=1,
then=Sum(F('views') / date_delta)),
default=Sum('views'),
output_field=IntegerField()
))
)
一个细微的变化是使用子查询。 Raydel 的子查询计算每个 Owner
的 Trenddata
计数在原则上是有效的,但会非常慢,因为它对 Trenddata
中的每一行进行聚合(不仅仅是唯一的 Owner
s).
不同的子查询提供了获得相同结果的更快方法。它只执行一次计算 Trenddata
中的 Owner
s 的繁重工作,然后检查每个 Trenddata
对象的所有者是否在列表中。我认为这应该仍然比我的第一个查询慢,但奇怪的是,它在我的简短测试中表现平平(大约 300 万行)。
(queryset
.values('owner', owner_name=F('owner__name'))
.annotate(multi=Case(
When(owner__in=Subquery(TrendData.objects
.values('owner')
.annotate(cnt=Count('owner'))
.filter(cnt__gt=0)
.values('owner')),
then=1),
default=0,
output_field=IntegerField())
)
.annotate(views = Case(
When(multi=1,
then=Sum(F('views') / date_delta)),
default=Sum('views'),
output_field=IntegerField())
)
)
您可以将两个注释合二为一,但是如果您要将 multi
重复用于多个注释而不是像我的示例中那样只使用一个注释,那么将两个注释分开可以避免为每个注释重复子查询.
文档字段查找对我的情况没有多大帮助
我的查询现在是什么样的
date_delta = 2
queryset = TrendData.objects.filter(owner__trend_type__mnemonic='posts',
date_trend__date__range=[date_from, date_to]).values('owner_id', 'owner__name')
queryset.annotate(owner_name=F('owner_id__name')).values('owner_name', 'owner_id').annotate(
views = Sum(Case(When(owner_id__gt=1, then=F('views') / date_delta)), default=('views')...,
output_field=IntegerField() )
)
queryset
输出如下所示:
{'owner_id': 1306, 'owner__name': 'Some name123'},
{'owner_id': 1307, 'owner__name': 'Somename as well'},
{'owner_id': 1308, 'owner__name': 'aand another name'},
{'owner_id': 1306, 'owner__name': 'Some name123'}
如您所见,有匹配的 owner_id,并且查询集 len() 每天 100k,因此如果日期范围是 5 天,则查询集 len() == 500k。 我的 models.py 看起来像这样
class Owner(models.Model):
class Meta:
verbose_name_plural = 'Objects'
TREND_OWNERS = Choices('group', 'user')
link = models.CharField(max_length=255)
name = models.CharField(max_length=255)
owner_type = models.CharField(choices=TREND_OWNERS, max_length=50)
trend_type = models.ForeignKey(TrendType, on_delete=models.CASCADE)
def __str__(self):
return f'{self.link}[{self.trend_type}]'
class TrendData(models.Model):
class Meta:
verbose_name_plural = 'Trends'
owner = models.ForeignKey(Owner, on_delete=models.CASCADE)
views = models.IntegerField()
views_u = models.IntegerField()
likes = models.IntegerField()
shares = models.IntegerField()
interaction_rate = models.DecimalField(max_digits=20, decimal_places=10)
mean_age = models.IntegerField()
date_trend = models.DateTimeField()
我意识到它会工作得很好,但这是错误的,因为如果 owner_id 很好,它会除以 date_delta,在我的情况下,如果 owner_id在查询集中出现不止一次。我试过 owner_id__count__gt
但那不存在 :(
我很想知道是否有一种方法可以在我的注释 Case(When())
查询集中计算 owner_id 的出现次数。这将真正解决我的问题。
如果它大于 1,我们除以 date_delta,否则我们保持原样
更新:
明确一点,这个注释做得很好,但是它也划分了一些我不想划分的查询(在我的例子中,非重复 owner_id 查询集仍然划分它的视图,分享等等 2) 所以这就是为什么我使用上面提到的 Case(When())
queryset.values('owner__name', 'owner_id').annotate(
views=Sum('views') / 2,
views_u=Sum('views_u') / 2,
likes=Sum('likes') / 2,
shares=Sum('shares') / 2,
interaction_rate=Sum('interaction_rate') / 2,
mean_age=Sum('mean_age') / 2)
更新#2 这是我的逻辑,但在 python
json_output = []
for item in (queryset
.values('owner__name', 'owner_id')
.annotate(owner_count=Count('owner_id'))
.annotate(views=Sum('views'), views_u=Sum('views_u'),
likes=Sum('likes'),
shares=Sum('shares'),
interaction_rate=Sum('interaction_rate'),
mean_age=Sum('mean_age')):
if item['owner_count'] > 1:
item['views'] = item['views'] / date_delta
item['views_u'] = item['views_u'] / date_delta
item['likes'] = item['likes'] / date_delta
item['shares'] = item['shares'] / date_delta
item['interaction_rate'] = '{:.10f}'.format(
Decimal(item['interaction_rate']) / date_delta)
item['mean_age'] = item['mean_age'] / date_delta
json_output.append(item)
else:
json_output.append(item)
首先,我认为这是错误的owner_name=F('owner_id__name'
应该是
owner_name=F('owner__name'
.
如果我理解,您想用拥有所有者的 TrendData 实例的数量来注释 TrendData 查询集。
您可以使用 Subquery 来实现:
owner_td_count = Owner.objects.annotate(
td_count=Count('trenddata_set')
).filter(
id=OuterRef('owner_id')
).values('td_count')[:1]
然后首先通过计算 owner_id:
的出现次数进行注释queryset.annotate(
owner_name=F('owner__name'),
owner_id_count=Subquery(owner_td_count) # How many DataTrend's have the owner with id=owner_id
).values('owner_name', 'owner_id').annotate(
# ...
)
)
那你可以在你Case/when构造:
Case(
When(
owner_id_count=1, then=F('views'),
default=F('views') / date_delta)),
output_field=IntegerField()
)
)
更新:
事实证明我毕竟没有对此进行全面测试(我以为我有,抱歉)。您需要将 Case
包裹在 Sum
周围,反之(Sum
在 Case
周围)无论 Django 版本如何都不起作用:
(queryset
.values('owner', owner_name=F('owner__name'))
.annotate(owner_count=Count('owner'))
.annotate(views = Case(
When(owner_count__gt=1,
then=Sum(F('views') / date_delta)),
default=Sum('views'),
output_field=IntegerField()
))
)
一个细微的变化是使用子查询。 Raydel 的子查询计算每个 Owner
的 Trenddata
计数在原则上是有效的,但会非常慢,因为它对 Trenddata
中的每一行进行聚合(不仅仅是唯一的 Owner
s).
不同的子查询提供了获得相同结果的更快方法。它只执行一次计算 Trenddata
中的 Owner
s 的繁重工作,然后检查每个 Trenddata
对象的所有者是否在列表中。我认为这应该仍然比我的第一个查询慢,但奇怪的是,它在我的简短测试中表现平平(大约 300 万行)。
(queryset
.values('owner', owner_name=F('owner__name'))
.annotate(multi=Case(
When(owner__in=Subquery(TrendData.objects
.values('owner')
.annotate(cnt=Count('owner'))
.filter(cnt__gt=0)
.values('owner')),
then=1),
default=0,
output_field=IntegerField())
)
.annotate(views = Case(
When(multi=1,
then=Sum(F('views') / date_delta)),
default=Sum('views'),
output_field=IntegerField())
)
)
您可以将两个注释合二为一,但是如果您要将 multi
重复用于多个注释而不是像我的示例中那样只使用一个注释,那么将两个注释分开可以避免为每个注释重复子查询.