在 r hadoop 中操作数据集列

Manipulate data set column in r hadoop

我有一个数据集,其中有一个日期(1/10/2015、1/10/2016、1/10/2017)。我想像这样更改它的格式(2015、2016、2017)。我需要使用 Hadoop 执行此操作。

使用正则表达式提取所需的值。

可以在这个博客中找到带有示例的好教程:Extract date in required formats from hive tables

If you want the year and month alone of the format ‘yyyy-MM’ then use regexp_extract(column_datetime,'(.*\-.*)\-.*',1)


编辑:^this^ 最初作为 评论 发布,但我将其包装为 答案 ,因此其他人可能会发现更快。

另一种方式

select regexp_replace('1/10/2015, 1/10/2016, 1/10/2017','(\d/\d\d/)','') rr