使用 python 自然语言工具包阅读孟加拉语
Reading Bengali with python Natural Language Toolkit
我想在 NLTK 的 CategorizedPlainCorpusReader 中阅读孟加拉语文本。对于 gedit 文本编辑器中我的孟加拉语文本文件的快照:
sublime 文本编辑器中的文件快照:
从快照中可以看出问题所在。问题是 Unicode 组合问题(虚线环是一个死赠品)。这是阅读文本的代码段:
>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')
输出为:
输出应该是“একবার”而不是“একব”“র”。可以做什么??提前致谢。
您需要为 Bengali characters 提供 Unicode 范围。
使用
word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")
撇号可以保留在字符 class 中。
我想在 NLTK 的 CategorizedPlainCorpusReader 中阅读孟加拉语文本。对于 gedit 文本编辑器中我的孟加拉语文本文件的快照:
sublime 文本编辑器中的文件快照:
从快照中可以看出问题所在。问题是 Unicode 组合问题(虚线环是一个死赠品)。这是阅读文本的代码段:
>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')
输出为:
输出应该是“একবার”而不是“একব”“র”。可以做什么??提前致谢。
您需要为 Bengali characters 提供 Unicode 范围。
使用
word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")
撇号可以保留在字符 class 中。