识别希伯来语 unicode 字符或仅识别希伯来语字符的正则表达式
Regex to recognize Hebrew unicode characters or just Hebrew characters
我正在尝试找出一个与 Flex 正则表达式引擎 和 C++ 一起使用的正则表达式,以便我可以从我的编程语言中解析一个结构,其中关键字是在希伯来语中。正则表达式需要识别的 construct/patterns 之一是:
人
我试过的正则表达式:
"קו"
(קו)
[\u05E7\u05D5]
[\u05D5]{1}[\u05E7]{1}
[^\b\u05D5][\u05E7\b]
第一个有效,但我的另一个正则表达式模式也识别了它,我不想要它是:
`[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+`
此外,尝试对下面的上述模式使用 unicode - 它没有用
[\u05D0-\u05EA]+
理想情况下,我希望我的正则表达式模式能够匹配以下字符串组合或其下方的字符串组合
קו אחד = שלום
קו אחד
对于以上内容,我尝试了这些正则表达式模式,但 none 有效:
(קו)(\s)[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+
(וק)\s+[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+
[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+\s+(וק)
理想情况下,在我所有的正则表达式中,我想使用 unicode 字符。
此外,这是我一直用于 unicode 字符的 table:this link
此外,我查看了这些问题并尝试了已发布的解决方案,但均无济于事。我只想对没有点的希伯来字母使用 unicode 系统,这只是 unicode 字符 u05D0-u05EA,这些问题涵盖了带点系统的 unicode 字符。无论如何,我似乎无法将带点的 unicode 字符替换为非带点的 unicode 字符来工作:
tried all solutions here
read through this, tried solution, no success
and this is for PHP, so not very helpful as I'm using C++
您需要使用两个字符范围,
U+0590-05FF
(/*פ,ש*/
) 和
U+FB1D-FB4F
(/*Pres: ﬡ,טּ*/
).
所以,您可以试试正则表达式:
[\u0590-\u05FF\uFB1D-\uFB4F]+
我正在尝试找出一个与 Flex 正则表达式引擎 和 C++ 一起使用的正则表达式,以便我可以从我的编程语言中解析一个结构,其中关键字是在希伯来语中。正则表达式需要识别的 construct/patterns 之一是:
人
我试过的正则表达式:
"קו"
(קו)
[\u05E7\u05D5]
[\u05D5]{1}[\u05E7]{1}
[^\b\u05D5][\u05E7\b]
第一个有效,但我的另一个正则表达式模式也识别了它,我不想要它是:
`[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+`
此外,尝试对下面的上述模式使用 unicode - 它没有用
[\u05D0-\u05EA]+
理想情况下,我希望我的正则表达式模式能够匹配以下字符串组合或其下方的字符串组合
קו אחד = שלום
קו אחד
对于以上内容,我尝试了这些正则表达式模式,但 none 有效:
(קו)(\s)[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+
(וק)\s+[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+
[קראטוןםפשדגכעיחלךףזסבהנמצתץ]+\s+(וק)
理想情况下,在我所有的正则表达式中,我想使用 unicode 字符。
此外,这是我一直用于 unicode 字符的 table:this link
此外,我查看了这些问题并尝试了已发布的解决方案,但均无济于事。我只想对没有点的希伯来字母使用 unicode 系统,这只是 unicode 字符 u05D0-u05EA,这些问题涵盖了带点系统的 unicode 字符。无论如何,我似乎无法将带点的 unicode 字符替换为非带点的 unicode 字符来工作:
tried all solutions here
read through this, tried solution, no success
and this is for PHP, so not very helpful as I'm using C++
您需要使用两个字符范围,
U+0590-05FF
(/*פ,ש*/
) 和U+FB1D-FB4F
(/*Pres: ﬡ,טּ*/
).
所以,您可以试试正则表达式:
[\u0590-\u05FF\uFB1D-\uFB4F]+