为什么正则表达式 \b 元字符不匹配单词末尾的土耳其字符?
Why doesn't Regex \b metacharacter match Turkish characters at the end of the word?
我正在尝试仅在字符串中使用 Regex 来解析单词。此字符串包含 çğıİöşü
.
的土耳其语字符
我尝试了 \b[\wçğıİöşü]+\b
正则表达式模式,但效果并不理想。
在上图中,我希望模式完全匹配 Behiç
和 Güneş
。但如您所见,它只匹配 Behi
和 Güne
。匹配 Behiç
和 Güneş
的正确模式是什么?
您得到的结果是因为 Regex101 中的默认正则表达式模式是 PCRE (PHP),并且关闭了对 unicode 字符的支持。如果将风格更改为 Python(q.v。下面的演示),您将看到预期的行为。
只需打开对 unicode 或 UTF-8 的支持,您的问题就可以解决。
我正在尝试仅在字符串中使用 Regex 来解析单词。此字符串包含 çğıİöşü
.
我尝试了 \b[\wçğıİöşü]+\b
正则表达式模式,但效果并不理想。
在上图中,我希望模式完全匹配 Behiç
和 Güneş
。但如您所见,它只匹配 Behi
和 Güne
。匹配 Behiç
和 Güneş
的正确模式是什么?
您得到的结果是因为 Regex101 中的默认正则表达式模式是 PCRE (PHP),并且关闭了对 unicode 字符的支持。如果将风格更改为 Python(q.v。下面的演示),您将看到预期的行为。
只需打开对 unicode 或 UTF-8 的支持,您的问题就可以解决。