Spacy:用什么数据集格式对 1000 个标签进行分类?
Spacy: what dataset format to categorize 1000 labels?
我想用 spacy 对文本进行分类
我基于 spacy 的 texcat_demo 项目,基于它,json 应该看起来像这样
{"text": "Sorpresa: Ceferin comió con Piqué y Laporta", "cats": {"AR": 0, "ES": 1, "PT": 0 } }
{"text": "Puado, de calabazas al Madrid a una renovación prioritaria","cats": {"AR": 0, "ES": 1, "PT": 0 } }
但是对于多个类别应该如何看待这个json?,像这样
{"text": "Sorpresa: Ceferin comió con Piqué y Laporta", "cats": {"content": "news", "language": "spanish" } }
{"text": "Puado, de calabazas al Madrid a una renovación prioritaria", "cats": {"content": "soccer", "language": "portuguese" } }
谢谢
你在 spaCy 论坛上问 the same question,但我会继续在这里回答:无论你有多少标签,格式都是一样的。 (你还有其他原因吗?我不认为我们说过任何地方都有限制......)
还要注意 JSON 格式不是固定格式,重要的是在序列化之前创建 Doc 对象。有很多方法可以做到这一点,但 spaCy tutorial projects.
中有示例
我想用 spacy 对文本进行分类 我基于 spacy 的 texcat_demo 项目,基于它,json 应该看起来像这样
{"text": "Sorpresa: Ceferin comió con Piqué y Laporta", "cats": {"AR": 0, "ES": 1, "PT": 0 } }
{"text": "Puado, de calabazas al Madrid a una renovación prioritaria","cats": {"AR": 0, "ES": 1, "PT": 0 } }
但是对于多个类别应该如何看待这个json?,像这样
{"text": "Sorpresa: Ceferin comió con Piqué y Laporta", "cats": {"content": "news", "language": "spanish" } }
{"text": "Puado, de calabazas al Madrid a una renovación prioritaria", "cats": {"content": "soccer", "language": "portuguese" } }
谢谢
你在 spaCy 论坛上问 the same question,但我会继续在这里回答:无论你有多少标签,格式都是一样的。 (你还有其他原因吗?我不认为我们说过任何地方都有限制......)
还要注意 JSON 格式不是固定格式,重要的是在序列化之前创建 Doc 对象。有很多方法可以做到这一点,但 spaCy tutorial projects.
中有示例