如何使用 Spacy 的转换来保留 conllu 文件中的段落信息?
How to use Spacy's convert to keep paragraph information from conllu files?
我正在尝试将 conllu 文件转换为 Spacy 的 jsonl 格式。这些 conllu 文件包含 Universal Dependencies' website 中指定的段落信息。问题是段落信息没有转移到 jasonl 转换文件中,每个段落都包含一个句子。
我是 运行 Spacy 版本 2.1.3,仅使用 spacy convert command 中的强制性参数,基本上 python -m spacy input.conllu output_dir
这是我的一个 conllu 文件的前几句话(也许它们不符合规范?)。为了便于阅读,我只粘贴了每个句子的前几个标记。
# sent_id = tp2-p1-s1
# O cansaço começou a afetar os vestibulandos no terceiro dia de exame da Fuvest.
1 O O DET DET gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 2 DET _ _
2 cansaço cansaço NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 5 NSUBJ _ _
3 começou começar VERB VERB aspect=PERFECTIVE|mood=INDICATIVE|number=SINGULAR|person=THIRD|proper=NOT_PROPER|tense=PAST 5 AUX _ _
# sent_id = tp2-p1-s2
# "Estou meio cheia, mesmo", afirmou a candidata a filosofia Scyla Pereira Gouveia, 19, que fez as provas de biologia e química, de ontem, no colégio Pueri Domus.
1 " " PUNCT PUNCT proper=NOT_PROPER 2 P _ _
2 Estou Estar VERB VERB aspect=IMPERFECTIVE|mood=INDICATIVE|number=SINGULAR|person=FIRST|proper=NOT_PROPER|tense=PRESENT 0 ROOT _ _
3 meio meio NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 2 DOBJ _ _
4 cheia cheio ADJ ADJ gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 3 AMOD _ _
# sent_id = tp2-p1-s3
# Seu namorado, Guilherme Schneider, 18, que presta engenharia, faz exame no mesmo local.
1 Seu Seu PRON PRON gender=MASCULINE|number=SINGULAR|person=THIRD|proper=NOT_PROPER 2 DET _ _
2 namorado namorado NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 13 NSUBJ _ _
# newpar id = tp2-p2
# sent_id = tp2-p2-s1
# Pelo menos um dos 38.454 convocados para a segunda fase da Fuvest tem fortes motivos para não concluir hoje as provas.
1 Pelo Pelo ADP ADP gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 3 ADVMOD _ _
2 menos menos NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 1 MWE _ _
3 um um NUM NUM gender=MASCULINE|proper=NOT_PROPER 13 NSUBJ _ _
我希望 convert 的输出是一个包含 2 行的文件,每个段落一行。我得到 4 行,每个句子一行。
如果可能的话,我真的很想避免自己构建转换器。
提前致谢
事实证明,spaCy 已准备好包含段落信息,但是,在撰写此答案时,这是未使用的信息。
目前,在应该学习量刑的训练模型中,使用转换器时需要使用--n-sents
选项
我正在尝试将 conllu 文件转换为 Spacy 的 jsonl 格式。这些 conllu 文件包含 Universal Dependencies' website 中指定的段落信息。问题是段落信息没有转移到 jasonl 转换文件中,每个段落都包含一个句子。
我是 运行 Spacy 版本 2.1.3,仅使用 spacy convert command 中的强制性参数,基本上 python -m spacy input.conllu output_dir
这是我的一个 conllu 文件的前几句话(也许它们不符合规范?)。为了便于阅读,我只粘贴了每个句子的前几个标记。
# sent_id = tp2-p1-s1
# O cansaço começou a afetar os vestibulandos no terceiro dia de exame da Fuvest.
1 O O DET DET gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 2 DET _ _
2 cansaço cansaço NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 5 NSUBJ _ _
3 começou começar VERB VERB aspect=PERFECTIVE|mood=INDICATIVE|number=SINGULAR|person=THIRD|proper=NOT_PROPER|tense=PAST 5 AUX _ _
# sent_id = tp2-p1-s2
# "Estou meio cheia, mesmo", afirmou a candidata a filosofia Scyla Pereira Gouveia, 19, que fez as provas de biologia e química, de ontem, no colégio Pueri Domus.
1 " " PUNCT PUNCT proper=NOT_PROPER 2 P _ _
2 Estou Estar VERB VERB aspect=IMPERFECTIVE|mood=INDICATIVE|number=SINGULAR|person=FIRST|proper=NOT_PROPER|tense=PRESENT 0 ROOT _ _
3 meio meio NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 2 DOBJ _ _
4 cheia cheio ADJ ADJ gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 3 AMOD _ _
# sent_id = tp2-p1-s3
# Seu namorado, Guilherme Schneider, 18, que presta engenharia, faz exame no mesmo local.
1 Seu Seu PRON PRON gender=MASCULINE|number=SINGULAR|person=THIRD|proper=NOT_PROPER 2 DET _ _
2 namorado namorado NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 13 NSUBJ _ _
# newpar id = tp2-p2
# sent_id = tp2-p2-s1
# Pelo menos um dos 38.454 convocados para a segunda fase da Fuvest tem fortes motivos para não concluir hoje as provas.
1 Pelo Pelo ADP ADP gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 3 ADVMOD _ _
2 menos menos NOUN NOUN gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER 1 MWE _ _
3 um um NUM NUM gender=MASCULINE|proper=NOT_PROPER 13 NSUBJ _ _
我希望 convert 的输出是一个包含 2 行的文件,每个段落一行。我得到 4 行,每个句子一行。
如果可能的话,我真的很想避免自己构建转换器。
提前致谢
事实证明,spaCy 已准备好包含段落信息,但是,在撰写此答案时,这是未使用的信息。
目前,在应该学习量刑的训练模型中,使用转换器时需要使用--n-sents
选项