神经网络特征组合

Neural network feature combinatorics

假设我们的神经网络具有足够多的隐藏层、每层隐藏单元和迭代次数,这样这些参数就不会影响网络的预测。

给定特征 x1、x2、...、xn,是否有可能(证明)给定该特征子集(x1 到 xn),一系列潜在特征是否冗余。也就是说,给定这些特征(x1 到 xn),神经网络能否辨别其他特征,例如:

正是在这一行的查询中,我想知道是否存在使用神经网络的情况,您需要为网络添加更高阶或不同的函数才能准确预测。

一般来说,给定足够数量的特征,网络是否可以对任何图进行建模,如果不能,神经网络可以对哪些功能域进行建模不预测?

此外,是否有任何人可以指出引用该主题的研究?

谢谢!

长话短说:

没有神经网络用于回归任务,是的,对不起——没有 ANN EVER——能够合理预测y_target(s) 对于此类问题域,主要与 NN 模型的实施数学不匹配。

尝试通过 (几乎) 预测 y_target(s) 只是输入层状态向量分量(特征观察)的线性组合 X[:](好吧,确实在网络中对它们各自的标量放大求和进行了一些非线性处理)必须并且将无法保持精确。

读起来太复杂?
让我举个例子。

人们可以使用 ANN 来训练这种输入的线性组合,以最好地近似立方(本质上)问题域行为。最小化搜索的数学将产生这样的 ANN 系数,这将提供所有其他系数设置的最低惩罚。

到目前为止一切顺利。
但是,这样的 "tuned"-ANN 永远不会更接近潜在(现实世界)现象的立方体性质。不是因为我把它放在这里,而是因为线性组合,然而非线性因素的调整在重新计算所有层的过程中被合并,直到发生最终的总和和输出转换——所有这些主要不能在输入的整个域范围内引入立方行为(自然母亲在问题域的现实世界行为中确实这样做了——这就是隐藏的魔鬼及其无法获得的原因这样更好 - 创建一个简单的模拟这个主要失败以满足代码中的立方体现实并不难。


一个与问题域无关的通用 ANN 可能是一个美好的愿望,
但是
实施起来会有点矫枉过正
并且
更糟糕的是尝试 .fit()

是的,你是对的,可以花费一些创造力,以便在 ANN 输入层的前面创建和连接一个预 ANN 黑盒,其中所有可能的数学运算进行 native-X[:] 特征观察,从而为 ANN 输入层提供所有可能的派生特征半产品,从而使 ANN 能够学习任何类型的实际问题域行为。

这似乎是一种方法,直到您实现这样一个神奇的通用行为模型黑盒并意识到它将在背靠背连接器上强制执行的比例,因此进行输入- 层和所有隐藏层在静态尺度中增长得如此之广,以至于由此产生的 O( N^k ) 缩放的现实很可能将这种尝试独立地钉在以太等待中由于 [PTIME,PSPACE] 复杂性和一个事实,即 none Turing-SEQ-computing complexity-taxonomy-member 将得到任何可以想象的并行计算工作即使成功完全翻译成 PAR 计算域也更好 ( for reasoning behind this C2-boundary problem ref. comments and citations from here ).

即使有人声称,通用量子计算机(参考 U-QC-device)将使这种情况在 [CTIME,CSPACE] 中实现可行的结果,我会保留期待这样的 U-QC-device很快就可以合理地用于实际部署(FYI: 当前已发布的最大非 U-QC 设备 CSPACE 规模约为2016 年 1024 qbits,2017 年约 2048+ qbits,如果这一进展能够永远保持这样的速度,那么这种 CSPACE 约束将使魔法通用行为模型黑盒搭载 ANN 而不是非常小以满足您的上述期望:

已发布的恒定速率 CSPACE-问题扩展
一直持续到本世纪末

截至 EoM-2017/07 之前发布的技术细节,当前可用的(非)-U-QC 设备似乎不允许 [CSPACE]-约束问题有更多 不仅仅是 11 个输入层神经元,所以想象一下 2017 年可能只有 11 个特征输入,对于这种开创性、有吸引力和有前途的技术 [CTIME] ANN-answers,但只有 QUBO-这里简化了实际 R^m 连续域最小化问题(由于超出 QC 窗帘的额外复杂性,细节被故意排除在外)。

    2011:                   128-neurons -- ( from    1x  "extended"-input-L,
    2015:                 1,024              across all many or few hidden-Ls,
    2016:                 2,048              up to the  .. output-L )
    2017:                 4,096
    2019:                 8,192
    2021:                16,384
    2023:                32,768
    2025:                65,536
    2027:               131,072
    2029:               262,144
    2031:               524,288
    2033:             1,048,576 - neurons - - IN[300] features
    2035:             2,097,152 - first able to compute a trivial ANN
    2037:             4,194,304         with just an elementary architecture of
    2039:             8,388,608         QuantFX.NN_mapper( ( 300,  #  IN[300]
    2041:            16,777,216                             1200,  #  H1[1200]
    2043:            33,554,432                              600,  #  H2[600]
    2045:            67,108,864                              300,  #  H3[300]
    2047:           134,217,728 - neurons - - IN[ 3096] feat.  1 ),# OUT[1]
    2049:           268,435,456                                .. )
    2051:           536,870,912
    2053:         1,073,741,824
    2055:         2,147,483,648
    2057:         4,294,967,296 - neurons - - IN[17520] features
    2059:         8,589,934,592
    2061:        17,179,869,184
    2063:        34,359,738,368
    2065:        68,719,476,736
    2067:       137,438,953,472 - neurons - - IN[99080] features
    2069:       274,877,906,944
    2071:       549,755,813,888
    2073:     1,099,511,627,776
    2075:     2,199,023,255,552
    2077:     4,398,046,511,104
    2079:     8,796,093,022,208
    2081:    17,592,186,044,416
    2083:    35,184,372,088,832
    2085:    70,368,744,177,664
    2087:   140,737,488,355,328
    2089:   281,474,976,710,656
    2091:   562,949,953,421,312
    2093: 1,125,899,906,842,624
    2095: 2,251,799,813,685,248
    2097: 4,503,599,627,370,496
    2099: 9,007,199,254,740,992 - neurons - - IN[25365000] features

现实检查:

考虑到上述技术限制(对于 .fit()O(N^k) 缩放是 [PTIME,PSPACE] 永恒,其中 k >= 2,或 [CTIME,CSPACE]问题规模限制)创造这样一个神圣的黑盒超通用人工神经网络设备没有太大优势(和然后但必须等待几十年,如果不是几个世纪以来,才可以用来从 ANN-on-steriods 获得第一个答案。

恰恰相反,更接近现实。

人们可以并且应该引入所有应有的问题域分析工作,以便正确识别原生现实行为(参考技术控制论:系统识别)以提前了解如何设计恰到好处的功能-丰富的输入层(合成特征 - 高阶幂和叉积、和、乘积、谐波、log-/exp-s、复杂/离散魔法等将在必要时发生满足(不超过)执行的系统识别),因为 ANN 模型缩放可以通过这种方式保持适当大小的结构,并具有以下一对系统确定性:

a) 去掉任何一个部分都会破坏模型(缺少一些不可或缺的特征主要会导致预测无法满足系统识别的行为多样性)。

b) 添加任何单个部分 不会改进模型(添加任何未包含在已识别系统行为多样性中的特征会为当前增加零新功率预测能力)


恰到好处的复杂特征工程 + 合适的尺寸
是要走的路:

|>>> nnMAP, thetaVEC, thetaGRAD, stateOfZ, stateOfA, biasIDX = QuantFX.NN_mapper( ( 300, 1200, 600, 300, 1 ), True )

INF: NN_mapper has found:         5 Layers  in total ( 3 of which HIDDEN ), 300 INPUTs, 1 OUTPUTs

INF: NN_mapper has found:       300 Neurons in  INPUT-Layer
INF: NN_mapper has found:      1200 Neurons in HIDDEN-Layer_1
INF: NN_mapper has found:       600 Neurons in HIDDEN-Layer_2
INF: NN_mapper has found:       300 Neurons in HIDDEN-Layer_3
INF: NN_mapper has found:         1 Neuron  in OUTPUT-Layer

INF: NN_mapper          : will return a COMMON-block for nn_MAP__VEC
INF: NN_mapper          : will return a COMMON-block for ThetaIJ_VEC having      1262401 cells, being all random.
INF: NN_mapper          : will return a COMMON-block for ThetaIJGRAD having      1262401 cells,
INF: NN_mapper          : will return a COMMON-block for Z_state_VEC having         2405 cells,
INF: NN_mapper          : will return a COMMON-block for A_state_VEC having         2405 cells, with BIAS units == +1
INF: NN_mapper          : will return                                                                BIAS units' linear addresses in biasIDX vector
                        :                                                                                               for indirect DMA-access to
                        :                                                                                               {Z|A}_state_VEC[biasIDX[LayerN]]
                        :                                                                                               cells, representing the LayerN's BIAS unit

因此,人们可能会对刚好足够的 ANN 感到满意,它可以在经典计算领域进行训练和操作,而无需等待接下来的 20 年,直到并且如果通用量子-一旦当前 [CSPACE][,在 [CTIME] 中,计算设备开始能够迅速产生和交付结果=100=]-约束将停止阻止此类有前途的服务。

Given features x1, x2, ..., xn, is it possible (to prove) whether or not a range of potential features are redundant given this subset of features (x1 through xn). That is, given these features (x1 through xn), can a neural network discern other features

看来你正在寻找神经网络的降维方法。自动编码器可以做到这一点:

  • 您有输入 x1、x2、...、xn。
  • 您创建一个网络来获取这些输入(n 个输入节点)。它有一些隐藏层、一个瓶颈(k 个节点,其中 k < n)和一个输出层(n 个节点)。
  • 目标是重新创建输入。

当它被训练时,你在输出后丢弃层。如果网络能够从瓶颈中恢复输入,则不需要后面的层。

In general, given some adequate number of features, is it possible for the network to model ANY graph, and if not what functional domains can neural networks not predict?

我猜您正在寻找 Universal approximation theorem。简而言之:只要给它们足够的节点和至少一个隐藏层

,神经网络就可以在 R^n 的紧凑子集上逼近任何连续函数。