如何将段落格式的标记列表(在句子标记化之后)转换为带编号的句子列表或将其转换为数据框?
How to convert list of tokens (after sentence tokenization) in a paragraph format into a numbered list of sentences or convert it to a dataframe?
我使用 PDFMiner
阅读了一个 pdf 文件,并从中提取了 NLP analysis
的文本。由于我将处理研究文章,因此我通过将文本段落转换为句子标记列表来对文本进行轻微清理。我的目标是 select 个包含文中引用的句子供我进一步分析。
例如,
数据格式如下:
['this is my new project' , 'I am very excited about this (Abbasi, 2015)']
预期输出:
1.This is my new project
2.I am very excited about this (Abbasi, 2015)
是否可以将其转换为数据框,以便我可以为每个句子添加标签?
或者仅提取带有文内引用的句子是否明智?
区分句子中是否包含intext引文,可以简单地使用正则表达式如下:
i=[]
for i in sentences:
if re.match(pattern, i):
print("label (1)")
indices.append(i)
else: print("label (0)") or pass
当模式匹配时,将连接句子的索引追加到一个数组中。最后,将它们变成 CSV 数据框。
注意:由于文章有不同的引用风格,请检查 RE rules 以自定义您自己的模式。
我使用 PDFMiner
阅读了一个 pdf 文件,并从中提取了 NLP analysis
的文本。由于我将处理研究文章,因此我通过将文本段落转换为句子标记列表来对文本进行轻微清理。我的目标是 select 个包含文中引用的句子供我进一步分析。
例如, 数据格式如下:
['this is my new project' , 'I am very excited about this (Abbasi, 2015)']
预期输出:
1.This is my new project
2.I am very excited about this (Abbasi, 2015)
是否可以将其转换为数据框,以便我可以为每个句子添加标签?
或者仅提取带有文内引用的句子是否明智?
区分句子中是否包含intext引文,可以简单地使用正则表达式如下:
i=[]
for i in sentences:
if re.match(pattern, i):
print("label (1)")
indices.append(i)
else: print("label (0)") or pass
当模式匹配时,将连接句子的索引追加到一个数组中。最后,将它们变成 CSV 数据框。
注意:由于文章有不同的引用风格,请检查 RE rules 以自定义您自己的模式。