使用 REGEX 提取土耳其语地址

Question

我不熟悉正则表达式。我想提取土耳其文本中的地址行。但是在土耳其语中写地址时没有标准。例如，地区 = mahalle

您为以下类型写区

"Mah." "Mh." "MAH." "MH" "mh." "mah." 或 "mahalle"

regex = ((.*)((\b[Mm][Aa]?[Hh].?)(.*)))

正则表达式用于查找除最后一个以外的所有类型的分区。

两种可能的选区类型； 1. "mah. mh. " 2. "mahalle"

如何找到相同的正则表达式句子？

Note: i don't want to | (or)  statement.  .... .... | (.*)mahalle(.*)

Answer 1

由于开始的选项不多，您可以使用 OR 运算符来避免复杂性。看看 stanford nlp 是如何处理 us 状态的： ABSTATE = Ala|Ariz|[A]z|[A]rk|Calif|Colo|Conn|Ct|Dak|[D]el|Fla|Ga|[I]ll|Ind|Kans?|Ky|[L] a|[M]ass|Md|Mich|Minn|[M]iss|Mo|Mont|Neb|Nev|Okla|[O]re|[P]a|Penn|Tenn|[T]ex|Va|Vt |[W]ash|Wisc?|Wyo

以我们为例：Mah.|Mh.|MAH.|MH|mh.|mah.|mahalle。您当然可以通过使用不区分大小写的标志来简化此操作来覆盖 Mah./MAH./mah..

使用 REGEX 提取土耳其语地址

Address extraction in Turkish with REGEX

regex

nlp

street-address