ELU在tensorflow框架中可以直接使用
hidden1=fully_connected(X,n_hidden1,activation_fn=tf.nn.elu)
'n_hidden1'是什么?
n_hidden1表示第一个隐藏层的神经元数量。n_hidden1是一个整数,定义了该层有多少个神经元
n_hidden1
相较于relu,leakly relu可以解决当梯度为负时,relu梯度为0(神经元死亡问题)
这个算子把原来的relu函数分段去看,划分为[负无穷,0),[0,正无穷],tf.maximum对比参数中第一个和第二个绝对值的大小,取绝对值大的,在负区间上,乘上一个比较小的系数(0.01),那么就取到这部分数值,而在正区间上,还是原来的数值大,就不受影响 -- leakly relu 需要再去定义算子实现
w大为什么会导致梯度消失
回到参数w本身,作为在网络结构中进行传递的东西,好比我们寄快递,原始的东西是我们放进去的,可以比拟为w的初始值,然后我会里三层外三层地去包装快递,可以比拟为参数在网络结构里每一层的传递,中间用来绑的胶带就是激活函数,w是要放在层与层之间的激活函数中去计算出新的数值传递到下一层的。那就回到激活函数上,tanh、sigmod、relu的函数图像,看tanh,在x上较大的一个位置(但是不是特别大时),函数的斜率(求导 -- 梯度)很大--梯度爆炸(也就是w的绝对值比较大);当趋近于无穷时激活函数的变化率也趋近于0 -- 梯度消失
正则化的本质是作用于学习率,通过一个正则化参数来减小学习率也就是步长,进而缓解梯度t的增幅,所以w ** t+1 = w ** t - (a-L) * g那么参数w的变动就会相对减小,因为往往训练到一定批次后精确率、准确率等指标的提高都是在w的小幅度调整中实现的,可以理解为精益求精,而不是大刀阔斧地革新阶段了
如何理解梯度消失和梯度爆炸
个人理解是:梯度消失:连续的一定的批次下,返回的accuracy一直都基本不变了,比如卡在0.92(举个例子),同时这个指标不能达到我们的预期,也就是还有点欠拟合,那么才会说是‘出问题了’(梯度消失),一直卡在1的化我们不会觉得这是个不好的现象
梯度爆炸:accuracy滑铁卢
梯度裁剪 -- 梯度爆炸问题
在反向传播结合Adam动态调整学习率时虽然一定程度上可以避免‘跳出山谷’的问题,但由于深度神经网络本身参数的量特别大,加之其损失函数的非凸性质,导致不确定性因素很大,加上梯度裁剪的策略可以更好地避免训练出现‘滑铁卢’
accuracy小幅度的变动可能原因:dropout的随机性、激活函数的非线性拟合能力
大幅度的变动(滑铁卢)则更应该考虑反向传播时梯度、模型参数的问题
老师,a[2]=[] 和a[2:3]=[]不都是换了元素3吗? 只是一个变成了空列表一个是切片范围内替换成空列表,为什么c不能算元素3删除啊?
template中写了
</router-view>,为什么在网页中没有显示呢,而且无法跳转到对应的页面
和老师的代码一样 为什么只有两个按钮,点击跳转的话,路由会改变,但是对应的页面却没有显示
为啥我显示的是这样的
老师好奇这两个方法哪个占内存少一些,运算快一些?
就是最后那个print位置有什么讲究啊,每个位置的结果都不同
pendown不是把箭头放下去了吗,为什么画圆的时候又在y=50的时候画了
python区分大小写是什么意思
之前下载的两个软件都在D盘会怎么样
格式化不成功咋搞
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637