自动从图像中提取文本

Automating the extraction of text from images

我在 AWS S3 存储桶中有 500 个文件夹。在每个文件夹中,都有 2 到 3 张图像。我如何在每个图像上应用 Textract 并使用节点 js 提取完整的文本(所有文本连接)?我编写了以下代码来获取 S3 对象:

const aws = require('aws-sdk');
const config = require('./config.js');
(async function(){
    aws.config.setPromisesDependency();
    try{
        aws.config.update({
            accessKeyId: config.accessKeyId,
            secretAccessKey: config.secretAccessKey,
            region: config.awsRegion
        });
        const s3 = new aws.S3();
        const response = await s3.listObjectsV2({
            Bucket : '<Bucket Name>',
            Prefix : '<Prefix>'

        }).promise();
        console.log(response);
    }
    catch(e)
    {
        console.log('our err.',e);
    }
    
})();

如何遍历其中的子文件夹和图像?

您可以:

  • 使用 S3 API 列出并遍历所有图像,为每个图像应用文本提取
  • 使用 S3 清单循环遍历所有图像并执行相同操作

对于新文件,您可以设置 Lambda 函数和 S3 PUT 触发器以自动将文本检测应用于新文件。