使用 Python 删除阿拉伯变音符号

removing Arabic Diacritic using Python

我想通过使用 Python

删除阿拉伯语变音符号来过滤我的文本

例如

文本:真主啊,请原谅我们和我们的父母 filltring之后:真主啊,原谅我们和我们的父母

我发现这可以使用 CAMeL 工具完成,但我不确定如何实现

您可以像这样使用库 pyArabic

import pyarabic.araby as araby

before_filter="اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا"
after_filter = araby.strip_diacritics(before_filter)

print(after_filter)
# will print : اللهم اغفر لنا ولوالدينا

您可以尝试不同的 stip 过滤器:

araby.strip_harakat(before_filter)  # 'اللّهمّ اغفر لنا ولوالدينا'
araby.strip_lastharaka(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_shadda(before_filter)  # 'اللَهمَ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_small(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_tashkeel(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'
araby.strip_tatweel(before_filter)  # 'اللَّهمَّ اغْفِرْ لنَا ولوالدِينَا'