多语言查询中的正则表达式不适用于应用程序,但在 SQL 开发人员和单元测试中
Regex in a multilingual query not working for application, but in SQL developer and unit test
对于以下包含正则表达式的查询,我有一个奇怪的行为:
SELECT COALESCE(lang.TITLE, ids.message_id) AS TEXT,
ids.message_id
FROM
(SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages
) ids,
LOCAL_TITLES lang
WHERE ids.message_id = '' || lang.NUMBER_NO(+);
LOCAL_TITLES
包含以下条目:
- 5310031 |一些本地化文本
- 9184 |另一个文本
所以预期的查询结果应该是:
- 28647854 | 28647854
- 一些本地化文本 | 5310031
- 另一个文本 | 9184
当查询通过 SQL Developer 运行时,这很有效。我还有一个 (Unit-/Integration-) 测试我的 DAO,它运行这个查询返回预期的结果。
我的问题: 当查询由 运行 网络应用程序执行时,正则表达式找不到数字 ID。相反,实际查询结果是
- 国标28647854-04 |国标28647854-04
- 国标5310031-05 |国标5310031-05
- 另一个文本 | 9184
您是否知道正则表达式在来自 Web 应用程序时的行为为何不同?
您的正则表达式正在寻找具有 [a-z]
模式的小写字符。您的双生成数据具有大写 GB,因此它们不匹配,默认区分大小写设置,至少在我的语言环境中:
alter session set nls_sort = 'BINARY';
SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages;
MESSAGE_ID
--------------
9184
GB 28647854-04
GB 5310031-05
如果您让会话不区分大小写,他们会这样做:
alter session set nls_sort = 'BINARY_CI';
SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages;
MESSAGE_ID
--------------
9184
28647854
5310031
您还可以在每个正则表达式调用中使其不区分大小写:
SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}', 1, 1, 0, 'i') > 0
THEN regexp_substr(messages.NR, '\d+', 1, 1, 'i')
ELSE messages.NR
END AS message_id
...
或者只展开字符class:
WHEN regexp_instr(messages.NR, '[a-zA-Z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
或
WHEN regexp_instr(messages.NR, '[[:alpha:]]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
您的某些会话是使用 BINARY_CI(或其他一些不区分大小写的)linguistic comparison 设置创建的,但您的 'web application' 设置不是。这可能取决于每个人使用的区域设置,因此更改应用程序区域设置也可以解决差异;但使模式更符合逻辑可能更好。
更具体地说,在你的情况下(查看了你的个人资料),如果你的语言环境是德国,那么你的 NLS_SORT 是德国人,这与 BINARY_CI 对我来说是英国人语言环境。据推测,您的 SQL 开发人员和单元测试正在 运行 使用德语设置,而您的网络应用不是,因为它自己的默认设置或设计。
Read more about "SQL Regular Expressions in a Multilingual Environment" in the documentation.
对于以下包含正则表达式的查询,我有一个奇怪的行为:
SELECT COALESCE(lang.TITLE, ids.message_id) AS TEXT,
ids.message_id
FROM
(SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages
) ids,
LOCAL_TITLES lang
WHERE ids.message_id = '' || lang.NUMBER_NO(+);
LOCAL_TITLES
包含以下条目:
- 5310031 |一些本地化文本
- 9184 |另一个文本
所以预期的查询结果应该是:
- 28647854 | 28647854
- 一些本地化文本 | 5310031
- 另一个文本 | 9184
当查询通过 SQL Developer 运行时,这很有效。我还有一个 (Unit-/Integration-) 测试我的 DAO,它运行这个查询返回预期的结果。
我的问题: 当查询由 运行 网络应用程序执行时,正则表达式找不到数字 ID。相反,实际查询结果是
- 国标28647854-04 |国标28647854-04
- 国标5310031-05 |国标5310031-05
- 另一个文本 | 9184
您是否知道正则表达式在来自 Web 应用程序时的行为为何不同?
您的正则表达式正在寻找具有 [a-z]
模式的小写字符。您的双生成数据具有大写 GB,因此它们不匹配,默认区分大小写设置,至少在我的语言环境中:
alter session set nls_sort = 'BINARY';
SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages;
MESSAGE_ID
--------------
9184
GB 28647854-04
GB 5310031-05
如果您让会话不区分大小写,他们会这样做:
alter session set nls_sort = 'BINARY_CI';
SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
THEN regexp_substr(messages.NR, '\d+')
ELSE messages.NR
END AS message_id
FROM
( SELECT 'GB 28647854-04' AS NR FROM dual
UNION
SELECT 'GB 5310031-05' AS NR FROM dual
UNION
SELECT '9184' AS NR FROM dual
) messages;
MESSAGE_ID
--------------
9184
28647854
5310031
您还可以在每个正则表达式调用中使其不区分大小写:
SELECT
CASE
WHEN regexp_instr(messages.NR, '[a-z]{2}[[:space:],_-]\d+[-_]\d{2,6}', 1, 1, 0, 'i') > 0
THEN regexp_substr(messages.NR, '\d+', 1, 1, 'i')
ELSE messages.NR
END AS message_id
...
或者只展开字符class:
WHEN regexp_instr(messages.NR, '[a-zA-Z]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
或
WHEN regexp_instr(messages.NR, '[[:alpha:]]{2}[[:space:],_-]\d+[-_]\d{2,6}') > 0
您的某些会话是使用 BINARY_CI(或其他一些不区分大小写的)linguistic comparison 设置创建的,但您的 'web application' 设置不是。这可能取决于每个人使用的区域设置,因此更改应用程序区域设置也可以解决差异;但使模式更符合逻辑可能更好。
更具体地说,在你的情况下(查看了你的个人资料),如果你的语言环境是德国,那么你的 NLS_SORT 是德国人,这与 BINARY_CI 对我来说是英国人语言环境。据推测,您的 SQL 开发人员和单元测试正在 运行 使用德语设置,而您的网络应用不是,因为它自己的默认设置或设计。
Read more about "SQL Regular Expressions in a Multilingual Environment" in the documentation.