参数共享如何在高效神经架构搜索 (ENAS) 中发挥作用
How does parameter sharing work in Efficient Neural Architecture Search (ENAS)
我正在尝试了解参数共享在 ENAS 中的工作原理。前两个问题部分是为了回答第三个主要问题。
- 是否所有节点在宏搜索过程中只使用一次?
- 对于宏搜索,所有节点肯定link到它的前一个节点吗?
- 参数是如何共享的?每个操作是否都有自己的权重,调用时总是加载?如果是这种情况,那么在训练期间更新和记忆哪个权重,假设使用相同操作的多个实例。或者是否有每个唯一连接的权重,例如Node1 到 Node3 (W13) 有一个权重集,Node2 到 Node3 (W23) 有另一个权重集。如果是这样,那么它如何处理存在跳过连接的情况(例如,将 Node1 和 Node2 连接起来,然后将其传递给 Node 3。它会有 W12-3 吗?)?
我已经检查代码好几次了,所以我想我会自己回答这些问题,以防将来有人看到。
- 不,它们可以出现多次。
- 是的。
- 存储每一层所有可能节点的权重,在初始化新网络时从中提取权重。
我正在尝试了解参数共享在 ENAS 中的工作原理。前两个问题部分是为了回答第三个主要问题。
- 是否所有节点在宏搜索过程中只使用一次?
- 对于宏搜索,所有节点肯定link到它的前一个节点吗?
- 参数是如何共享的?每个操作是否都有自己的权重,调用时总是加载?如果是这种情况,那么在训练期间更新和记忆哪个权重,假设使用相同操作的多个实例。或者是否有每个唯一连接的权重,例如Node1 到 Node3 (W13) 有一个权重集,Node2 到 Node3 (W23) 有另一个权重集。如果是这样,那么它如何处理存在跳过连接的情况(例如,将 Node1 和 Node2 连接起来,然后将其传递给 Node 3。它会有 W12-3 吗?)?
我已经检查代码好几次了,所以我想我会自己回答这些问题,以防将来有人看到。
- 不,它们可以出现多次。
- 是的。
- 存储每一层所有可能节点的权重,在初始化新网络时从中提取权重。