在 hiveql 中拆分后平均总字数

Averaging total word count after splitting in hiveql

我有一些数据包含有关期刊和其中发表的论文的信息。我正在尝试获取每个期刊中摘要的平均长度。摘要列包含与该期刊中的论文相关的整个摘要,因此我想拆分 space 并获取每个的字数,然后按期刊分组以求平均值。到目前为止我已经尝试过:

这是我得到的最接近的结果,但是结果 table 显然没有显示摘要中所有单词的总数,我认为这应该是这个结果。我也试过:

但这给出了关于在聚合中包含聚合的错误。

使用size得到每篇摘要的字数:

select journal, avg(size(split(abstract, " ")))
from metadata_2020_05_01 where journal is not NULL 
group by journal sort by avg(size(split(abstract, " "))) desc limit 5