如何将段落格式的标记列表（在句子标记化之后）转换为带编号的句子列表或将其转换为数据框？

Question

我使用 PDFMiner 阅读了一个 pdf 文件，并从中提取了 NLP analysis 的文本。由于我将处理研究文章，因此我通过将文本段落转换为句子标记列表来对文本进行轻微清理。我的目标是 select 个包含文中引用的句子供我进一步分析。

例如，数据格式如下：

['this is my new project' , 'I am very excited about this  (Abbasi, 2015)']

预期输出：

1.This is my new project
2.I am very excited about this (Abbasi, 2015)

是否可以将其转换为数据框，以便我可以为每个句子添加标签？

或者仅提取带有文内引用的句子是否明智？

Answer 1

区分句子中是否包含intext引文，可以简单地使用正则表达式如下：

i=[] 
for i in sentences:
    if re.match(pattern, i):
       print("label (1)")
       indices.append(i)
    else: print("label (0)") or pass

当模式匹配时，将连接句子的索引追加到一个数组中。最后，将它们变成 CSV 数据框。

注意：由于文章有不同的引用风格，请检查 RE rules 以自定义您自己的模式。

How to convert list of tokens (after sentence tokenization) in a paragraph format into a numbered list of sentences or convert it to a dataframe?