仅 tf 就可以训练 2000 万多行数据集吗?
can tf alone train a 20 million-plus rows dataset?
我想使用超过 2000 万行的数据集在 tf 中训练模型。执行此操作时是否会发生 limitations/errors?有没有 methods/techniques 我可以尝试有效地执行此操作?。问题是简单的分类问题之一,但我从来没有用这么大的数据集训练过。任何意见将是有益的。谢谢
TensorFlow 可以处理通过数万个 GPU 传递的 PB 的信息 - 问题是,您的 代码是否正确管理资源, 您的 硬件可以处理吗?这叫做distributed training. The topic is very broad, but you can get started with setting up a GPU - that includes installing CUDA & cuDNN. You can also refer to input data pipeline optimization.
我建议通过 Anaconda 3, as it handles package compatibility - here's a guide or two 处理所有安装以开始使用。
最后,您的主要硬件限制是 RAM 和 GPU 内存;前者表示模型可以处理的最大数组大小(例如 8GB),后者表示 GPU 可以适应的最大模型大小。
我想使用超过 2000 万行的数据集在 tf 中训练模型。执行此操作时是否会发生 limitations/errors?有没有 methods/techniques 我可以尝试有效地执行此操作?。问题是简单的分类问题之一,但我从来没有用这么大的数据集训练过。任何意见将是有益的。谢谢
TensorFlow 可以处理通过数万个 GPU 传递的 PB 的信息 - 问题是,您的 代码是否正确管理资源, 您的 硬件可以处理吗?这叫做distributed training. The topic is very broad, but you can get started with setting up a GPU - that includes installing CUDA & cuDNN. You can also refer to input data pipeline optimization.
我建议通过 Anaconda 3, as it handles package compatibility - here's a guide or two 处理所有安装以开始使用。
最后,您的主要硬件限制是 RAM 和 GPU 内存;前者表示模型可以处理的最大数组大小(例如 8GB),后者表示 GPU 可以适应的最大模型大小。