在 r hadoop 中操作数据集列
Manipulate data set column in r hadoop
我有一个数据集,其中有一个日期(1/10/2015、1/10/2016、1/10/2017)。我想像这样更改它的格式(2015、2016、2017)。我需要使用 Hadoop 执行此操作。
使用正则表达式提取所需的值。
可以在这个博客中找到带有示例的好教程:Extract date in required formats from hive tables
If you want the year and month alone of the format ‘yyyy-MM’ then use
regexp_extract(column_datetime,'(.*\-.*)\-.*',1)
编辑:^this^ 最初作为 评论 发布,但我将其包装为 答案 ,因此其他人可能会发现更快。
另一种方式
select regexp_replace('1/10/2015, 1/10/2016, 1/10/2017','(\d/\d\d/)','') rr
我有一个数据集,其中有一个日期(1/10/2015、1/10/2016、1/10/2017)。我想像这样更改它的格式(2015、2016、2017)。我需要使用 Hadoop 执行此操作。
使用正则表达式提取所需的值。
可以在这个博客中找到带有示例的好教程:Extract date in required formats from hive tables
If you want the year and month alone of the format ‘yyyy-MM’ then use
regexp_extract(column_datetime,'(.*\-.*)\-.*',1)
编辑:^this^ 最初作为 评论 发布,但我将其包装为 答案 ,因此其他人可能会发现更快。
另一种方式
select regexp_replace('1/10/2015, 1/10/2016, 1/10/2017','(\d/\d\d/)','') rr