AWS Textract table 提取将带有逗号的整数的行破坏到另一列中

AWS Textract table extraction broke rows with integers that has comma inside it into another column

我想使用 AWS Textract 将我的图像转换为 python 中的 tables 并将其下载为 CSV。

所以,我在这里遵循了 AWS 的文档和示例代码: https://github.com/awsdocs/aws-doc-sdk-examples/blob/master/python/example_code/textract/textract_python_table_parser.py

显然上面 link 中的代码会将整数中的逗号分隔到另一列中。我将用图像和步骤来解释以重现以下错误:

所以这是我的 table 图像形式的例子。

如果您想重现错误,请克隆 github 存储库中的代码并在您的 cmd/terminal

中键入以下代码
python textract_python_table_parser.py <your-image-filename.png>

报错如下:

正如您在 ["Amount (USD)"] 列中看到的那样,其中带有逗号的值将分成 ["Transaction Date"] 列。即使我阅读 pandas 中的 csv 文件也没有用。

我想知道 GitHub 存储库中的哪一行代码是否将逗号分隔分为另一列

刚刚发现,在GitHub link中,第114行,只需在大括号中添加“”即可:

csv += '"{}"'.format(text) + ","

原因是将所有文本转换为字符串,这样 CSV 在格式化时就不会考虑字符串中的逗号。