老师 对于L2来讲,theta0和theta1变小,那么对于MSE来说,下降的方向并不是碗底的方向,按照老师画的方向来讲,那么损失函数不是变大了吗?
老师 在加上正则化项之后进行梯度下降的时候,是正则化项和损失函数(MSE)同时进行梯度下降,还是先损失函数进行梯度下降,之后正则化再进行梯度下降呢?
老师 那么最优解的话,是碗底的位置呢还是损失函数与正则化的图像的交点呢?
老师 如过损失函数的图像与L1正则化的图像这样交的话,最优解是图像的两个交点吗?此时,w1与w2都不为0?此时的最优解如何解释呢?
老师你好,超平面是高维度空间中的平面,那么再高维空间它表现是平面,如果从低维角度取理解它是不是就是一个复杂的曲面呢?
老师 L1的最优解是在坐标轴上吗?
老师请问np.random.seed(42),这个42有什么知识点吗,可以是52,62吗
在调用sklearn.linear_model 中的 Ridge对象 来做岭回归的时候, 视频中是调了alpha = 0.4 请问这是一个经验值嘛?在现实如果调用的过程中应该怎么样调整呢?
中心极限定理下,独立同分布,独立理解为:
假设一个样本跟某些其他样本有相关关系,随着样本数目的增多,这种相关关系变得非常微弱,无穷样本情况下,这种关系趋近于0,就变成了独立。
这样理解对吗,老师?
老师 把非线性相关的数据用多项式升维处理成线性相关数据
然后带入线性算法里
这是属于用先行算法 算出线性模型吗,还是这个模型还是属于非线性啊~
(蓝点是样本,绿色的线是没有处理数据的模型,黄色和红色是数据升维后的模型)
老师,我看前面MLE视频和MSE推导的公式好像有点不一样,不太明白这点。MLE那里是1/root(2*pi*sigma^2), 但是求导公式这里却是以下的样子, 就是sigma的位置和平方也不见了。
老师,误差是连续型的,满足的是正态分布。
对于连续型的概率,具体的值不该都等于0吗
为什么可以相乘
老师, 我有点不明白。 样本X矩阵映射到三维空间, 那凸还是非凸很多时候取决于样本间特征维度? 如果是, 我大概能想象工作上的数据集很多时候都可能出现非凸的情况, 那这样可不可以说其实解析解几乎用不上?我这么理解或者总结对不对? 此外, 视频里面提到,机器学习基本都用凸函数去计算, 这句话怎么说得那么肯定, 不是应该取决于数据集吗?
但是进阶版和原来的train和test划分可能不一样,这样子去导致的MSE变动,而不是特征的原因呢???
老师, 如果数据集Xj列是属于稀疏性描述中偏疏的,也就是很多0, 加上其中有很大的离散值, 那么标准归一化会不会反而效果不大了? 或者说, 数据偏疏的话, 离散值对归一化效果的影响(权重)也会相对较大?
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637