如何将段落格式的标记列表(在句子标记化之后)转换为带编号的句子列表或将其转换为数据框?

How to convert list of tokens (after sentence tokenization) in a paragraph format into a numbered list of sentences or convert it to a dataframe?

我使用 PDFMiner 阅读了一个 pdf 文件,并从中提取了 NLP analysis 的文本。由于我将处理研究文章,因此我通过将文本段落转换为句子标记列表来对文本进行轻微清理。我的目标是 select 个包含文中引用的句子供我进一步分析。

例如, 数据格式如下:

['this is my new project' , 'I am very excited about this  (Abbasi, 2015)'] 

预期输出:

1.This is my new project
2.I am very excited about this (Abbasi, 2015)

是否可以将其转换为数据框,以便我可以为每个句子添加标签?

或者仅提取带有文内引用的句子是否明智?

区分句子中是否包含intext引文,可以简单地使用正则表达式如下:

i=[] 
for i in sentences:
    if re.match(pattern, i):
       print("label (1)")
       indices.append(i)
    else: print("label (0)") or pass

当模式匹配时,将连接句子的索引追加到一个数组中。最后,将它们变成 CSV 数据框。

注意:由于文章有不同的引用风格,请检查 RE rules 以自定义您自己的模式。