从文件创建句子列表并将其添加到数据框中

Creating a list of sentences from a file and adding it into a dataframe

我正在使用下面的代码从文件文档创建句子列表。该函数将 return 一个句子列表。


def extract_sentences(file):
    content = nlp(file)
    sentences = list(content.sents)
    return sentences

之后,我想将每个句子添加到数据框中的“句子”列下。问题在于,在数据框中,句子看起来像一个单词列表,用逗号分隔,例如:(this, process, includes, different, stages...)。但我希望它看起来像:这个过程包括不同的阶段

sentences 是每个函数的列表。 您可能希望将 return 语句更改为 return 字符串。 因此,完整的功能看起来像:

def extract_sentences(file):
    content = nlp(file)
    sentences = list(content.sents)
    return " ".join(x.text for x in sentences)

content.sents 是一个包含 spacy.tokens.span.Span 个对象的生成器对象。

如果你想输出一个字符串列表,你可以使用

def extract_sentences(file):
    content = nlp(file)
    return [x.text for x in content.sents]

注意 .text 属性 returns span 对象的文本表示。