使用 REGEX 提取土耳其语地址
Address extraction in Turkish with REGEX
我不熟悉正则表达式。
我想提取土耳其文本中的地址行。
但是在土耳其语中写地址时没有标准。
例如,地区 = mahalle
您为以下类型写区
"Mah." "Mh." "MAH." "MH" "mh." "mah." 或 "mahalle"
regex = ((.*)((\b[Mm][Aa]?[Hh].?)(.*)))
正则表达式用于查找除最后一个以外的所有类型的分区。
两种可能的选区类型;
1. "mah. mh. "
2. "mahalle"
如何找到相同的正则表达式句子?
Note: i don't want to | (or) statement. .... .... | (.*)mahalle(.*)
由于开始的选项不多,您可以使用 OR 运算符来避免复杂性。看看 stanford nlp 是如何处理 us 状态的:
ABSTATE = Ala|Ariz|[A]z|[A]rk|Calif|Colo|Conn|Ct|Dak|[D]el|Fla|Ga|[I]ll|Ind|Kans?|Ky|[L] a|[M]ass|Md|Mich|Minn|[M]iss|Mo|Mont|Neb|Nev|Okla|[O]re|[P]a|Penn|Tenn|[T]ex|Va|Vt |[W]ash|Wisc?|Wyo
以我们为例:Mah.|Mh.|MAH.|MH|mh.|mah.|mahalle。您当然可以通过使用不区分大小写的标志来简化此操作来覆盖 Mah./MAH./mah..
我不熟悉正则表达式。 我想提取土耳其文本中的地址行。 但是在土耳其语中写地址时没有标准。 例如,地区 = mahalle
您为以下类型写区
"Mah." "Mh." "MAH." "MH" "mh." "mah." 或 "mahalle"
regex = ((.*)((\b[Mm][Aa]?[Hh].?)(.*)))
正则表达式用于查找除最后一个以外的所有类型的分区。
两种可能的选区类型; 1. "mah. mh. " 2. "mahalle"
如何找到相同的正则表达式句子?
Note: i don't want to | (or) statement. .... .... | (.*)mahalle(.*)
由于开始的选项不多,您可以使用 OR 运算符来避免复杂性。看看 stanford nlp 是如何处理 us 状态的: ABSTATE = Ala|Ariz|[A]z|[A]rk|Calif|Colo|Conn|Ct|Dak|[D]el|Fla|Ga|[I]ll|Ind|Kans?|Ky|[L] a|[M]ass|Md|Mich|Minn|[M]iss|Mo|Mont|Neb|Nev|Okla|[O]re|[P]a|Penn|Tenn|[T]ex|Va|Vt |[W]ash|Wisc?|Wyo
以我们为例:Mah.|Mh.|MAH.|MH|mh.|mah.|mahalle。您当然可以通过使用不区分大小写的标志来简化此操作来覆盖 Mah./MAH./mah..