如何从扫描的照片中 select 文字？

How do I select text from a scanned photo?

我正在编写一个应用程序，您可以使用该应用程序为文本拍照，然后扫描文本并将其传输到变量中。我已经用插件 firebase_ml_vision 做到了，一切正常。

我的问题是我想自己决定从照片中扫描哪些文本。例如，这可能会以这样一种方式工作，即自动为每个单词和数字提供一个框架，然后用户点击转移到变量的单词。这也适用于 Google 翻译器（见屏幕截图），但不幸的是我还没有找到任何方法......你知道它是如何工作的吗？

firebase-mlkit 的文本识别 API returns frame 以及 cornerPoints 每个 VisionTextBlock, VisionTextLine，以及 VisionTextElement：

https://firebase.google.com/docs/reference/swift/firebasemlvision/api/reference/Classes/VisionTextBlock

他们应该可以帮助您 select 单词、行或文本块。