如何限制 FastText 中的字长?
How do I limit word length in FastText?
我正在使用 FastText 在包含一长串没有空格的字符的语料库上计算 skipgrams。大约一个小时后,FastText 生成一个模型,其中包含对应于 "words" 语料库中长度为 50 个字符的向量(长度为 100)。
我尝试设置 -minn 和 -maxn 参数,但这没有帮助(我知道它不会,但无论如何都试过),我猜 -wordNgrams 参数仅在有空格时适用(?!)。这只是代表状态的一长串字符,没有空格。
文档似乎没有关于此的任何信息(或者我可能遗漏了什么?)
该工具只接受您输入的任何 space 分隔的标记。
如果您想截断或丢弃超过 50 个字符(或任何其他阈值)的标记,您需要自己预处理数据。
(如果您的问题实际上是其他问题,请向问题添加更多详细信息,以显示语料库中的示例行、您如何在其上调用 fasttext、您如何审查不满意的结果以及您如何期望满意的结果去看看。
我正在使用 FastText 在包含一长串没有空格的字符的语料库上计算 skipgrams。大约一个小时后,FastText 生成一个模型,其中包含对应于 "words" 语料库中长度为 50 个字符的向量(长度为 100)。
我尝试设置 -minn 和 -maxn 参数,但这没有帮助(我知道它不会,但无论如何都试过),我猜 -wordNgrams 参数仅在有空格时适用(?!)。这只是代表状态的一长串字符,没有空格。
文档似乎没有关于此的任何信息(或者我可能遗漏了什么?)
该工具只接受您输入的任何 space 分隔的标记。
如果您想截断或丢弃超过 50 个字符(或任何其他阈值)的标记,您需要自己预处理数据。
(如果您的问题实际上是其他问题,请向问题添加更多详细信息,以显示语料库中的示例行、您如何在其上调用 fasttext、您如何审查不满意的结果以及您如何期望满意的结果去看看。