在 Hive 中解析字符串
Parsing a string in Hive
我一直在使用 Redshift 中的 split_part 函数,并且正在寻找 Hive 中的等效函数。我想解析以下格式的网址。我查看了 parse_url 函数,但认为没有满足我需要的选项。所以我想我需要一些字符串函数。
因此对于以下网址:
www.ibm.com
www.fr.ibm.com
我想要 www 之后的所有内容。该文档有一个 substring_index 功能,这似乎是我需要的,但它不适用于我正在使用的 Hive 版本(不确定如何检查我使用的版本)
只需使用 REGEXP_EXTRACT()
并在第一个 .
之后获取所有内容
SELECT url
, REGEXP_EXTRACT(url, '\.(.*)') AS parsed_url
FROM db.tbl
我一直在使用 Redshift 中的 split_part 函数,并且正在寻找 Hive 中的等效函数。我想解析以下格式的网址。我查看了 parse_url 函数,但认为没有满足我需要的选项。所以我想我需要一些字符串函数。
因此对于以下网址:
www.ibm.com
www.fr.ibm.com
我想要 www 之后的所有内容。该文档有一个 substring_index 功能,这似乎是我需要的,但它不适用于我正在使用的 Hive 版本(不确定如何检查我使用的版本)
只需使用 REGEXP_EXTRACT()
并在第一个 .
SELECT url
, REGEXP_EXTRACT(url, '\.(.*)') AS parsed_url
FROM db.tbl