从文件创建句子列表并将其添加到数据框中

Question

我正在使用下面的代码从文件文档创建句子列表。该函数将 return 一个句子列表。


def extract_sentences(file):
    content = nlp(file)
    sentences = list(content.sents)
    return sentences

之后，我想将每个句子添加到数据框中的“句子”列下。问题在于，在数据框中，句子看起来像一个单词列表，用逗号分隔，例如：(this, process, includes, different, stages...)。但我希望它看起来像：这个过程包括不同的阶段

Answer 1

sentences 是每个函数的列表。您可能希望将 return 语句更改为 return 字符串。因此，完整的功能看起来像：

def extract_sentences(file):
    content = nlp(file)
    sentences = list(content.sents)
    return " ".join(x.text for x in sentences)

Answer 2

content.sents 是一个包含 spacy.tokens.span.Span 个对象的生成器对象。

如果你想输出一个字符串列表，你可以使用

def extract_sentences(file):
    content = nlp(file)
    return [x.text for x in content.sents]

注意 .text 属性 returns span 对象的文本表示。

Creating a list of sentences from a file and adding it into a dataframe