训练 SyntaxNet 需要多少数据?

How much data is required to train SyntaxNet?

我知道数据越多越好,但是训练 SyntaxNet 所需的合理数据量是多少?

经过反复试验,我得出了以下最低要求:

  • 训练语料库 - 18,000 个标记(少于此数和第 2 步 - 使用标记器进行预处理 - 失败)
  • 测试语料库 - 2,000 个标记(少于此数和第 2 步 - 使用标记器进行预处理 - 失败)
  • 开发语料库 - 2,000 个令牌

    但请注意,有了这个,我只设法将 NLP 管道中的步骤做到了 运行,实际上我还没有设法从中得到任何可用的东西。