为机器学习提供数据的替代方法(使用 CSV 文件除外)

Alternate methods to supply data for machine learning (Other than using CSV files)

我有一个问题与现实世界中的机器学习应用有关。这可能听起来很愚蠢哈哈。

我自学机器学习有一段时间了,大部分练习都是使用 csv 文件作为数据源(处理过的和原始的)。请问除了导入csv文件到channel/supply机器学习数据外,还有其他方法吗?

示例:实时流式传输 Facebook/Twitter 实时提要数据以进行机器学习,而不是收集旧数据并将其存储到 CSV 文件中。

数据源可以是任何东西。通常,它以 CSV 或 JSON 文件的形式提供。但在现实世界中,假设您有一个网站,如 Twitter,正如您所提到的,您会将数据存储在合理的数据库中,例如 SQL 数据库,并且对于某些数据,您会它们在内存缓存中。

您基本上可以利用这两者来检索数据并进行处理。这里的问题是当你有太多数据无法放入内存时,你不能真正查询所有内容并处理它,在这种情况下,你将利用一些智能算法以块的形式处理数据。

某些数据库(例如 SQL)的好处在于,它们为您提供了一组函数,您可以在 SQL 脚本中调用这些函数来高效地计算某些数据。例如,您可以获得整个 table 或使用 SUM() 函数 SQL 的某列的总和,从而实现高效且简单的数据操作