Encog 神经网络 - 如何构建训练数据？

Question

我见过的每个 Encog 神经网络示例都涉及 XOR 或一些非常简单的东西。我有大约 10,000 个句子，句子中的每个单词都有某种类型的标签。输入层需要2个输入，前一个词和当前词。如果没有前一个词，那么第一个输入根本不会被激活。我需要像这样检查每个句子。每个词都取决于前一个词，所以我不能只拥有一个看起来类似于 XOR 示例的数组。此外，我真的不想将 10,000 多个句子中的所有单词加载到一个数组中，我宁愿一次扫描一个句子，一旦到达 EOF，就从头开始。

我应该怎么做？我对 Encog 不是很满意，因为我看到的所有示例要么是 XOR 要么非常复杂。

有 2 个输入...每个输入由 30 个神经元组成。单词成为某个标签的概率被用作输入。因此，大多数神经元得到 0，其他神经元得到概率输入，如 .5、.3 和 .2。当我说“未激活”时，我的意思是所有神经元都设置为 0。输出层代表所有可能的标签，因此，它是 30。输出神经元中任何一个具有最高数字的标签就是已选择。

我不确定如何在我见过的 'demos' 的 Encog 中检查所有 10,000 个句子并查找每个句子中的每个单词（用于输入并激活该输入）。 )

网络似乎是用一个包含所有训练数据的数组训练的，并且循环遍历直到网络训练完成。我想用许多不同的数组（每个句子一个数组）来训练网络，然后再次查看它们。

这种格式显然不适用于我正在做的事情：

    do {
    train.iteration();
    System.out.println(
    "Epoch #" + epoch + " Error:" + train.getError());
    epoch++;
    } while(train.getError() > 0.01);

Answer 1

所以，我不确定如何告诉你这个，但这不是神经网络的工作方式。你不能只使用一个词作为输入，你也不能只使用 "not activate" 作为输入。在最基本的层面上，这就是您运行一个问题的神经网络所需要的：

一个固定长度的输入向量（无论你输入什么，它都必须用固定长度的数字表示。向量中的每个条目都是一个数字）
一组标签（每个输入向量必须对应一个固定长度的输出向量）

一旦你有了这两个，神经网络就会对一个例子进行分类，然后自我编辑以尽可能接近标签。

如果你想使用单词和深度学习框架，你应该将你的单词映射到现有的向量表示（我强烈建议 glove, but word2vec 也很不错）然后在上面学习该代表。

在深入了解您在这里尝试的内容后，我认为问题在于您要处理 60 个输入，而不是一个。这些输入是两个词的现有预测的串联（在没有第一个词的情况下，前 30 个条目为 0）。您应该自己处理映射（应该非常简单），然后将其视为尝试用 60 个数字预测 30 个数字。

我觉得有必要告诉您，按照您解决问题的方式，您会看到糟糕的表现。在处理稀疏（主要是零）向量和如此小的数据集时，与其他方法相比，深度学习技术将表现出非常差的性能。您最好在现有数据上使用 glove + svm 或随机森林模型。

Answer 2

除了 BasicMLDataSet 之外，您还可以使用 MLDataSet 的其他实现。

我运行遇到了与 windows DNA 序列类似的问题。构建所有 windows 的数组将无法扩展。

相反，我实现了自己的 VersatileDataSource，并将其包装在 VersatileMLDataSet 中。

VersatileDataSource 只有几个方法可以实现：

public interface VersatileDataSource {
    String[] readLine();
    void rewind();
    int columnIndex(String name);
}

对于每个 readLine()，您可以 return 输入 previous/current 单词，并将位置推进到下一个单词。

Encog 神经网络 - 如何构建训练数据？

Encog Neural Net - How to structure training data?

java

artificial-intelligence

machine-learning

neural-network

encog