Google AutoML 导入文本项非常慢

Google AutoML Importing text items very slow

我正在将文本项导入 Google 的 AutoML。每行包含大约 5000 个字符,我添加了 70K 个这样的行。这是一个多标签数据集。没有进度条或指示此过程需要多长时间。已经 运行 几个小时了。有什么方法可以计算剩余时间或总估计时间。我想添加额外的数据集,但我担心在训练开始之前这将是一个非常漫长的过程。任何类型的公式来创建甚至是半疯狂的猜测都会很棒。 -谢谢!

我认为今天不可能,但我提交了一个功能请求 [1],您可以关注该请求以获取更新。我要求同时训练和导入数据,至于训练它也很有用

我尝试使用 50K 条记录(~ 300 bytes/record)进行训练,负载花费了 20 多分钟,之后我将其终止。我重试了 1K,运行 持续了 20 分钟,然后通过电子邮件向我发送了一条错误消息,说我每个输入有多个标签(是的,那又怎样?训练数据将包含其中一些标签)并且我有 >100 个标签.我简化了分类桶并重新运行。又花了20分钟,成功了。然后我 运行 'training' 花了 3 个小时,收了我 11 美元。假设线性行为,这对应于 50K 次记录的 550 美元。第一次通过时的预测结果还不错,但我觉得它正在向这个问题扔一个超大的神经网络。如果他们说出它是什么 NN 及其尺寸,将会有所帮助。他们确实说 "beta" :)

不要浪费时间尝试使用 google 进行文本分类。我是 GCP 的铁杆用户,但微软 LUIS 更好、更精确、更快,我不敢相信这两种产品都在试图解决同样的问题。

Luis 有更好的文档,支持更多的语言,有更好的测试界面,速度更快。我不知道是否更便宜,因为定价模式不同,但我们愿意支付更多。