如何获取一个汉字的分解

How to obtain the decomposition of a Chinese character

我在字符识别和机器学习方面完全是个初学者。

我想编写一个能够处理以下输入的程序:

and 以及它们水平对齐的信息。

一个汉字的分解总是三件事:2个其他字符和描述这2个字符如何形成初始字符的模式(称为组合类型)。在上面的示例中,组合类型是 "aligned horizontally".

给定这样的输入,我希望我的程序能够分辨出初始字符中的哪些像素或哪些轮廓属于其分解中的哪个子字符。

从哪里开始?

嗯,我不能说我提供了一个完整的答案,但想想:

1) 阅读有关 Google 翻译应用程序工作原理的论文。您知道,当您将 iPhone 的相机对准文本时,它会立即翻译文本(甚至保留字体!)。它支持中文,所以你很想看看他们是否解决了类似的任务以及他们是如何做到的

2) 另一个需要回答的大问题——如何准备输入数据。您将需要至少提供一些输入数据 - 即至少一些字符的分解。尝试为几个字符手动执行此操作,并尝试正式化您正在做的事情 - 这将帮助您更好地制定您希望算法执行的操作。

3) 尝试对来自 #2 的数据使用一些深度神经网络。使用带有卷积层的东西。使用 RBM(受限玻尔兹曼机)对其进行预训练。之后 - 只需仔细查看生成的神经网络即可。不要期望得到任何好的结果,但查看 ANN 层将帮助您了解网络从数据中学到了什么,并可能提供一些关于下一步移动的见解