如何从细节丰富的图像中指定计算机感兴趣的区域?
How to specify the region of interest to the computer from the image having lots of details?
背景:
我正在做我最后一年的本科大学项目,我涉及的主题是通过光学字符识别检测纸币。我已经开始研究基本的图像处理技术,并且由于我是 Image Processing with Java 的新手,所以进度有点慢。
自从上学期考了一篇论文,我对图像处理有了基本的了解
基本上,我正在研究尼泊尔纸质笔记,我的想法是从中提取关键信息。我使用的纸币是100、500和1000卢比的尼泊尔纸币。
上图是500卢比的尼泊尔货币,思路是从图像中提取信息,识别图像属于哪种货币。
我这个项目的主要目标是判断币种,基本上是通过右下区域的识别来完成的。图像的右下方区域定义了货币的价值。
次要目标是获取货币数量(唯一)并将其存储在数据库中。
问题:
好吧,我的问题是,这个问题的解决有多公平?进入这个项目之前有哪些必要的先决条件?我如何 select 图像中的感兴趣区域?
下面列出了我的项目应该识别的另外两个纸质笔记:
尼泊尔纸注:Rs. 1000
尼泊尔纸注:Rs. 100
Since I am new to Image Processing with Java, I need a fair
suggestion on how to achieve my problem to success.
我将尝试逐步回答这个问题,因为这些是连续的,你的准确性将取决于你每一步的表现。
确定和提取 ROI:考虑到您正在处理纸币,可以安全地假设您的输入 test/train 数据将是按照上面给出的图像中的方式对齐。尝试使用等高线来提取数字周围的感兴趣区域。您可以做的另一件事是创建一个蒙版,它将过滤掉图像的剩余区域,只留下您需要的区域。第二种方法更像是硬编码,如果图像未对齐就会失败。
预处理:一旦获得投资回报率,在将数据提供给 OCR 之前,您需要进行一些预处理技术。大多数 OCR 在二值图像上表现出更好的准确性,有时在灰度图像上也是如此。此步骤对于从 OCR 中获得良好结果至关重要。
Applying OCR: 你可以随时使用Tesseract OCR或其他,但由于纸币的种类有限,我也建议你有一个查看对象检测模型。其中许多都可以在线轻松获得,您可以通过提供货币图像并手动标记相应的价值来自行训练它们。 OCR 并不总是 return 最好的结果,在您的用例中,我建议您尝试其他替代方法,例如图像匹配或制作模型。
背景:
我正在做我最后一年的本科大学项目,我涉及的主题是通过光学字符识别检测纸币。我已经开始研究基本的图像处理技术,并且由于我是 Image Processing with Java 的新手,所以进度有点慢。
自从上学期考了一篇论文,我对图像处理有了基本的了解
基本上,我正在研究尼泊尔纸质笔记,我的想法是从中提取关键信息。我使用的纸币是100、500和1000卢比的尼泊尔纸币。
上图是500卢比的尼泊尔货币,思路是从图像中提取信息,识别图像属于哪种货币。
我这个项目的主要目标是判断币种,基本上是通过右下区域的识别来完成的。图像的右下方区域定义了货币的价值。
次要目标是获取货币数量(唯一)并将其存储在数据库中。
问题:
好吧,我的问题是,这个问题的解决有多公平?进入这个项目之前有哪些必要的先决条件?我如何 select 图像中的感兴趣区域?
下面列出了我的项目应该识别的另外两个纸质笔记:
尼泊尔纸注:Rs. 1000
尼泊尔纸注:Rs. 100
Since I am new to Image Processing with Java, I need a fair suggestion on how to achieve my problem to success.
我将尝试逐步回答这个问题,因为这些是连续的,你的准确性将取决于你每一步的表现。
确定和提取 ROI:考虑到您正在处理纸币,可以安全地假设您的输入 test/train 数据将是按照上面给出的图像中的方式对齐。尝试使用等高线来提取数字周围的感兴趣区域。您可以做的另一件事是创建一个蒙版,它将过滤掉图像的剩余区域,只留下您需要的区域。第二种方法更像是硬编码,如果图像未对齐就会失败。
预处理:一旦获得投资回报率,在将数据提供给 OCR 之前,您需要进行一些预处理技术。大多数 OCR 在二值图像上表现出更好的准确性,有时在灰度图像上也是如此。此步骤对于从 OCR 中获得良好结果至关重要。
Applying OCR: 你可以随时使用Tesseract OCR或其他,但由于纸币的种类有限,我也建议你有一个查看对象检测模型。其中许多都可以在线轻松获得,您可以通过提供货币图像并手动标记相应的价值来自行训练它们。 OCR 并不总是 return 最好的结果,在您的用例中,我建议您尝试其他替代方法,例如图像匹配或制作模型。