.fit() 训练模型后使用transform() 和 直接.fit_transform() 有区别嘛?
为什么之前有段代码 先fit之后再transform,是因为如果使用.fit_transform() 相当于是两个不同数据集进行训练嘛会有不同么?
老师有没有功能实现迭代过程的可视化,描绘损失函数的收敛过程
这里不太理解,中心极限定理对多元线性回归有什么意义
老师可以解释一下什么是解释型语言,什么是编译型语言吗。本质区别是什么?
请问老师,对于一元线性回归的最大似然估计可不可以理解为:
模型的组测输出公式为y^= wx + b, 和真实值的误差是e,所以真实值y和预测值y^之间的关系可以定为:
y = y^ +e = wx +b +e。 所以当误差e最小时所对应的w和b就是我们需要的模型最佳参数。
因为e是符合正态分布,那么y也是符合正态分布的。所以y可以写成关于w和b的符合正态分布的概率密度公式。其中均值是wx + b,方差是一个常熟。那么对于一个样本,当这个概率密度最大的时候也就是wx + b越接近y的时候,我们模型的预测是最准确的,得到真实值的概率是最大的。此时所对应的w参数wb就是我们需要的模型参数。
因为我们所有样本都满足独立分布,所以总概率就可以写成所有样本的上述概率密度的累乘,我们只要最大化这个累乘后的概率密度,就可以找到对于所有数据样本来说最接近真实y概率的对应参数wb从而得到一个拟合不错的线性模型。
之后两边同取对数之后,因为以e为底的对数函数是单调递增的,所以最大化似然函数等同于最大化这个对数函数。因为化简后有一个常数项和一个有负号的关于wb的一项,那么问题就变成了最小化去掉负号的带有wb的这一项函数,从而就推导出来了我们的mse损失函数。
老师 为什么升维之后特征与标签就是线性关系呢?
老师 L1的最优解是在坐标轴上吗?
老师 如过损失函数的图像与L1正则化的图像这样交的话,最优解是图像的两个交点吗?此时,w1与w2都不为0?此时的最优解如何解释呢?
老师 那么最优解的话,是碗底的位置呢还是损失函数与正则化的图像的交点呢?
老师 在加上正则化项之后进行梯度下降的时候,是正则化项和损失函数(MSE)同时进行梯度下降,还是先损失函数进行梯度下降,之后正则化再进行梯度下降呢?
老师 对于L2来讲,theta0和theta1变小,那么对于MSE来说,下降的方向并不是碗底的方向,按照老师画的方向来讲,那么损失函数不是变大了吗?
老师 L1表示的菱形都可以成比例扩大呀,并不是只能交在离坐标轴近的地方呀
老师 zscore是标准归一化吗
老师 zscore标准化是什么标准化
老师 在计算梯度的时候,θ-α*gradient,gradient的值是取绝对值吗?
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2-20212637