用于查找子序列的 BigQuery
BigQuery to find the Subsequence
假设我的 table 是
WITH `sample_project.sample_dataset.table` AS (
SELECT 'user1' user, 2 sequence, 'T1' ts UNION ALL
SELECT 'user1', 2, 'T2' UNION ALL
SELECT 'user1', 1, 'T3' UNION ALL
SELECT 'user1', 1, 'T4' UNION ALL
SELECT 'user1', 3, 'T5' UNION ALL
SELECT 'user1', 2, 'T6' UNION ALL
SELECT 'user1', 3, 'T7' UNION ALL
SELECT 'user1', 3, 'T8'
)
我可以在不使用 STRING_AGG 和 REGEX OR JOIN 操作的情况下在序列列中找到可用的整数子序列吗?这是为了提高查询效率。
子序列是字符串的一部分。例如,考虑字符串 "banana",样本子序列是 "anna",因为来自 banana 的 "anna" 的每个索引字符都是严格递增的。子序列中的字符不必是连续的。
对于上面的 table 来说,当按时间戳排序(增加)时,我会得到序列列的 STRING_AGG 作为 22113233。在字符串 22113233 子序列中 1 2 3
可用,而子序列3 2 1
不可用。给定一个子序列 213
,我如何判断这个子序列是否可用(在按时间戳排序的 22113233
中)?
Given a subsequence 213, How can I say if this subsequence is available or not (in 22113233 ...
以下示例适用于 BigQuery SQL
#standardSQL
WITH `sequences` AS (
SELECT '22113233' sequence_list
), `subsequenses` AS (
SELECT '123' subsequence UNION ALL
SELECT '321' UNION ALL
SELECT '213'
)
SELECT sequence_list, subsequence,
REGEXP_CONTAINS(sequence_list, REGEXP_REPLACE(subsequence, '', '.*')) available
FROM `sequences` l
CROSS JOIN `subsequenses` s
结果如下
sequence_list subsequence available
22113233 321 false
22113233 123 true
22113233 213 true
如果您正在寻找特定的子序列 - 这可以进一步简化为
#standardSQL
WITH `sequences` AS (
SELECT '22113233' sequence_list UNION ALL
SELECT '11223322'
)
SELECT sequence_list,
REGEXP_CONTAINS(sequence_list, REGEXP_REPLACE('213', '', '.*')) available
FROM `sequences`
结果为
sequence_list available
22113233 true
11223322 false
假设我的 table 是
WITH `sample_project.sample_dataset.table` AS (
SELECT 'user1' user, 2 sequence, 'T1' ts UNION ALL
SELECT 'user1', 2, 'T2' UNION ALL
SELECT 'user1', 1, 'T3' UNION ALL
SELECT 'user1', 1, 'T4' UNION ALL
SELECT 'user1', 3, 'T5' UNION ALL
SELECT 'user1', 2, 'T6' UNION ALL
SELECT 'user1', 3, 'T7' UNION ALL
SELECT 'user1', 3, 'T8'
)
我可以在不使用 STRING_AGG 和 REGEX OR JOIN 操作的情况下在序列列中找到可用的整数子序列吗?这是为了提高查询效率。
子序列是字符串的一部分。例如,考虑字符串 "banana",样本子序列是 "anna",因为来自 banana 的 "anna" 的每个索引字符都是严格递增的。子序列中的字符不必是连续的。
对于上面的 table 来说,当按时间戳排序(增加)时,我会得到序列列的 STRING_AGG 作为 22113233。在字符串 22113233 子序列中 1 2 3
可用,而子序列3 2 1
不可用。给定一个子序列 213
,我如何判断这个子序列是否可用(在按时间戳排序的 22113233
中)?
Given a subsequence 213, How can I say if this subsequence is available or not (in 22113233 ...
以下示例适用于 BigQuery SQL
#standardSQL
WITH `sequences` AS (
SELECT '22113233' sequence_list
), `subsequenses` AS (
SELECT '123' subsequence UNION ALL
SELECT '321' UNION ALL
SELECT '213'
)
SELECT sequence_list, subsequence,
REGEXP_CONTAINS(sequence_list, REGEXP_REPLACE(subsequence, '', '.*')) available
FROM `sequences` l
CROSS JOIN `subsequenses` s
结果如下
sequence_list subsequence available
22113233 321 false
22113233 123 true
22113233 213 true
如果您正在寻找特定的子序列 - 这可以进一步简化为
#standardSQL
WITH `sequences` AS (
SELECT '22113233' sequence_list UNION ALL
SELECT '11223322'
)
SELECT sequence_list,
REGEXP_CONTAINS(sequence_list, REGEXP_REPLACE('213', '', '.*')) available
FROM `sequences`
结果为
sequence_list available
22113233 true
11223322 false