在 Hive 中解析字符串

Parsing a string in Hive

我一直在使用 Redshift 中的 split_part 函数,并且正在寻找 Hive 中的等效函数。我想解析以下格式的网址。我查看了 parse_url 函数,但认为没有满足我需要的选项。所以我想我需要一些字符串函数。

因此对于以下网址:

www.ibm.com
www.fr.ibm.com

我想要 www 之后的所有内容。该文档有一个 substring_index 功能,这似乎是我需要的,但它不适用于我正在使用的 Hive 版本(不确定如何检查我使用的版本)

只需使用 REGEXP_EXTRACT() 并在第一个 .

之后获取所有内容
SELECT url
  , REGEXP_EXTRACT(url, '\.(.*)') AS parsed_url
FROM db.tbl