如何将使用逗号作为分隔符但其中一列包含逗号的文件导入 pandas?
How to import into pandas a file that is using a comma as delimiter but one of its columns has commas?
我有一个用逗号分隔的文本文件,但有几列内部有逗号,所以它会在不需要的地方创建列。已尝试消除所有逗号,然后使用正则表达式仅查找数字并使用以下解决方案添加逗号(无效)()
Excel有同样的问题,其他文本编辑器也是。
0111,Cultivo de cereales y otros cultivos n.c.p.,011,Cultivos en general;市场产品培养; hortic,01,AGRICULTURA, GANADERIA, CAZA Y ACTIVIDADES DE SERVICIOS CONE,01,AGRICULTURA, GANADERIA, CAZA Y SILVICULTURA
如果您能看到粗体字,Phyton 不会创建一列而是创建三列。也试过了。
另一种解决方案是放置“”标记,但尚未找到创建的解决方案。
我们将不胜感激。
您的数据源有问题。它应该在这些值周围加上引号 " "
,然后 pandas 就可以解析它。如果没有它,现在就没有 可靠的 合乎逻辑的方法来区分数据,因为逗号的含义现在变得模棱两可。
A heuristic 解决方案可能是假设应该删除任何后跟 space 的逗号,而应保留其他逗号,您可以尝试这样做,但是仍然可能是它可能失败的情况。
data.replace(", ", " ")
我有一个用逗号分隔的文本文件,但有几列内部有逗号,所以它会在不需要的地方创建列。已尝试消除所有逗号,然后使用正则表达式仅查找数字并使用以下解决方案添加逗号(无效)(
Excel有同样的问题,其他文本编辑器也是。
0111,Cultivo de cereales y otros cultivos n.c.p.,011,Cultivos en general;市场产品培养; hortic,01,AGRICULTURA, GANADERIA, CAZA Y ACTIVIDADES DE SERVICIOS CONE,01,AGRICULTURA, GANADERIA, CAZA Y SILVICULTURA
如果您能看到粗体字,Phyton 不会创建一列而是创建三列。也试过了。
另一种解决方案是放置“”标记,但尚未找到创建的解决方案。
我们将不胜感激。
您的数据源有问题。它应该在这些值周围加上引号 " "
,然后 pandas 就可以解析它。如果没有它,现在就没有 可靠的 合乎逻辑的方法来区分数据,因为逗号的含义现在变得模棱两可。
A heuristic 解决方案可能是假设应该删除任何后跟 space 的逗号,而应保留其他逗号,您可以尝试这样做,但是仍然可能是它可能失败的情况。
data.replace(", ", " ")