需要通过 python 或 ruby 代码将 .csv 文件导入 Cassandra 3.11.3 DB(生产使用)的代码

Need code for importing .csv file via python or ruby code to Cassandra 3.11.3 DB (Production use)

我们有 7 个节点的 Cassandra 3.11.3 生产集群,我们将票证详细信息转储到中间服务器,我需要从此 .csv 文件读取并将 .csv 数据导入 cassandra table。我尝试了 ruby 代码,这对我来说很容易编写,但它不处理所有列值(因为这个 .csv 将有特殊字符、enters/different 行、UTF 问题、太多文本与票务工具中的描述一样)因为 .csv 中每一行的数据都在不断变化。

我想知道 ruby 或 python 是否适合在生产中执行此 activity 或者是否有人有好的示例代码来缓解上述问题并执行此类操作activity在生产环境中?

Ruby 和 Python 都非常适合此类任务,但如果您的源文件格式不正确,那么任何潜在的工具都可能失败 - 没有可以推断出的神奇按钮工具(损坏的)数据文件的上下文并自动为您修复所有问题。

我建议将任务分为两部分:1) 修复编码和数据质量问题(并在必要时执行任何数据转换),然后 2) 导入干净的数据。

任务 2 几乎可以使用任何编程语言(具有可用的适当 cassandra 驱动程序)轻松完成,但如果您有 well-formatted csv 源,您可能根本不需要任何黑客攻击(取决于当然是用例)- Cassandra 支持 copy ... from 命令,允许直接从 csv 导入数据(https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html)。