吴恩达课程中的正则化

news/2024/7/1 23:16:51

#Regulation
(1) 过拟合问题

  • ⭐️对过拟合的理解:
    • 本质可以理解成数据集噪声对整个数据拟合时造成的泛化性下降。
      \quad 比如让机器来识别甜甜圈,一开始提供的特征为圆的、中间有一个空洞,这时机器就会对甜甜圈进行一个基本的判断。但是,当又加入特征,比如带有黑色的(黑巧克力)之后,机器反而对甜甜圈的识别率下降了,当有一个白巧克力的甜甜圈出现时,机器就会识别不出来,最终导致机器只是完美的通过了每个数据点但是却无法进行预测。
    • \quad 对于机器来说,样本一方面具有共性的特征,另一方面又具有特性的特征,就好像甜甜圈的颜色本身对“是否为甜甜圈?”这个命题没有影响,甜甜圈本身的颜色就是它的特性,如果机器在学习过程中太“在意”这个特征时就会导致过拟合现象的产生。
  • 下面从数学函数角度来说明:
    • 对于 L i n e r   R e g r e s s i o n Liner Regression Liner Regression问题
      在这里插入图片描述
      对于图1来说这是欠拟合状态,对于图2来说,这是比较好的拟合状态,对图三来说,这是过拟合状态。
    • 对于 L o g i s t i c   R e g r e s s i o n Logistic Regression Logistic Regression问题
      在这里插入图片描述
  • 过拟合问题的解决方案:
    1️⃣ 由过拟合产生的原因可以提出第一种解决方法,精挑细选特征,尽量减少非共性特征的数量。
    2️⃣ 使用正则化方法,对机器的学习进行一定的限制。

(2) 代价函数

  • 对于这个函数来说,只要使 θ 3 \theta_3 θ3 θ 4 \theta_4 θ4的值足够小就不会对函数的拟合产生太大影响了,因此这里可以考虑给 θ 3 \theta_3 θ3 θ 4 \theta_4 θ4添加一个惩罚项。
    例如: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 + 1000 θ 3 2 + 1000 θ 4 2 ] J(\theta) = \dfrac{1}{2m}[\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}+1000\theta_3^2+1000\theta_4^2] J(θ)=2m1[i=1m(hθ(x(i))y(i))2+1000θ32+1000θ42]
  • 当不知道哪个 θ \theta θ是产生过拟合的原因时,就对所有的 θ \theta θ进行惩罚,让所有的 θ \theta θ值都减小。
    J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta) = \dfrac{1}{2m}[\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}+\lambda\sum\limits_{j=1}\limits^{n}\theta_j^2] J(θ)=2m1[i=1m(hθ(x(i))y(i))2+λj=1nθj2]
    λ \lambda λ 称为正则化参数,并且要注意,惩罚是从 θ 1 \theta_1 θ1开始的,一般不对 θ 0 \theta_0 θ0进行惩罚。
    在这里插入图片描述
  • 注意:参数 λ \lambda λ 的选择要合适,否则会导致最后 θ 1 , … , θ n \theta_1,\dots,\theta_n θ1,,θn都被惩罚到接近0,最后就是一条直线了。

(3)线性回归的正则化

  • 梯度下降
    • Repeat {
      θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) {\theta_{0}}:={\theta_{0}} -\alpha\dfrac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)} θ0:=θ0αm1i=1m(hθ(x(i))y(i))
       
      θ j : = θ j − α 1 m [ ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x j ( i ) ) + λ θ j ] {\theta_{j}}:={\theta_{j}}-\alpha\dfrac{1}{m}[\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}_j} \right)}+\lambda\theta_j] θj:=θjαm1[i=1m((hθ(x(i))y(i))xj(i))+λθj]
      } ( i = 1 , 2 , … , n ) (i=1,2,\dots,n) (i=1,2,,n)
    • 整理后可得:
      θ j : = ( 1 − α λ m ) θ j − α 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x j ( i ) ) {\theta_{j}}:=(1-\dfrac{\alpha\lambda}{m}){\theta_{j}}-\alpha\dfrac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}_j} \right)} θj:=(1mαλ)θjαm1i=1m((hθ(x(i))y(i))xj(i))
      可以看出,由于 λ , α , m \lambda,\alpha,m λ,α,m均为正值, θ j \theta_j θj必定是减小的。
  • 正规方程
    在这里插入图片描述
    矩阵的尺寸为 ( n + 1 ) ∗ ( n + 1 ) (n+1)*(n+1) (n+1)(n+1)

(4)逻辑回归的正则化

  • 代价函数
    J ( θ ) = 1 m ∑ i = 1 m [ − y ( i ) log ⁡ ( h θ ( x ( i ) ) ) − ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ] + λ 2 m ∑ j = 1 n θ j 2 J\left( \theta \right)=\dfrac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\dfrac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}} J(θ)=m1i=1m[y(i)log(hθ(x(i)))(1y(i))log(1hθ(x(i)))]+2mλj=1nθj2
  • 求导后的梯度下降函数为
    R e p e a t Repeat Repeat u n t i l until until c o n v e r g e n c e convergence convergence{
    θ 0 : = θ 0 − a 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) x 0 ( i ) ) {\theta_0}:={\theta_0}-a\dfrac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}}) θ0:=θ0am1i=1m((hθ(x(i))y(i))x0(i))
     
    θ j : = θ j − a [ 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) + λ m θ j ] {\theta_j}:={\theta_j}-a[\dfrac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\dfrac{\lambda }{m}{\theta_j}] θj:=θja[m1i=1m(hθ(x(i))y(i))xj(i)+mλθj]
    f o r for for j = 1 , 2 , . . . n j=1,2,...n j=1,2,...n
    }
  • matlab代码
    f u n c t i o n [ j V a l , g r a d i e n t ] = c o s t F u n c t i o n ( t h e t a ) function [jVal, gradient]=costFunction(theta) function[jVal,gradient]=costFunction(theta)
    j V a l = [ J 的 函 数 的 表 达 式 ] ; \qquad jVal=[J的函数的表达式]; jVal=[J];
    g r a d i e n t = 一 个 初 始 值 ; \qquad gradient=一个初始值; gradient=;
    g r a d i e n t ( 1 ) = ∂ J ( θ ) ∂ θ 0 ; \qquad gradient(1)=\dfrac{\partial J(\theta)}{\partial \theta_0}; gradient(1)=θ0J(θ);
     
    g r a d i e n t ( 2 ) = ∂ J ( θ ) ∂ θ 1 ; \qquad gradient(2)=\dfrac{\partial J(\theta)}{\partial \theta_1}; gradient(2)=θ1J(θ);
    … \qquad \dots
    g r a d i e n t ( n + 1 ) = ∂ J ( θ ) ∂ θ n ; \qquad gradient(n+1)=\dfrac{\partial J(\theta)}{\partial \theta_n}; gradient(n+1)=θnJ(θ);

http://www.niftyadmin.cn/n/2133353.html

相关文章

matlab 建模核心用法

matlab 建模核心用法 文章目录(1) 最基础用法(2) matlab 基础函数(3) matlab 文件导入(4) matlab 作图(5) matlab 匿名函数(6) matlab 随机数(1) 最基础用法 (1) 在每一行的语句后面加上分号,表示不显示运行结果。 (2) 多行注释:选中要注释的若干语句,快捷键CtrlR。 (3) 取消…

linux部分命令的学习

最近接触了Linux,所以就写了一些简单的Linux命令,和大家分享,包括简单命令、文本操作命令、目录操作命令和文本编辑vi的使用。1.简单命令1.echo命令将参数显示到标准输出。$ echo hello word!2.date命令显示或设置系统的日期和时间。&#xf…

SVD matlab图像处理

SVD 图像处理 奇异值分解在图形压缩中的应用 文章目录(1) 奇异值分解(2) 利用 SVD 对原数据进行降维(3) matlab的相关操作1. 对单张图片的处理2. 对文件夹中的图片批量处理3. 视频处理(1) 奇异值分解 AmnUmm∑mnVnnTA_{m\times n}U_{m\times m}\sum\nolimits_{m\times n}V^T_{n…

[PHP] 编译构建最新版PHP源码

获取最新PHP代码git clone https://git.php.net/repository/php-src.git构建编译环境apt-get install build-essential 编译:./buildconf报错autoconf not found,apt-get install autoconf ./configure --help./configure --prefix/tmp/ --disable-all /…

并查集的一般操作 ②

RT 题目描述 明天就是母亲节了,电脑组的小朋友们在忙碌的课业之余挖空心思想着该送什么礼物来表达自己的心意呢?听说在某个网站上有卖云朵的,小朋友们决定一同前往去看看这种神奇的商品,这个店里有n朵云,云朵已经被老板…

数模必备插值拟合

插值与拟合 两者都可用于对较少数据量的补充&#xff0c;但是一般插值用于数据量较少的情况n<30 拟合用于数据量较多的情况 n>30。 文章目录(1)插值与拟合采用的方法1.插值2.拟合(2)具体的代码操作方法1.插值的matlab2.拟合的matlab(1)插值与拟合采用的方法 1.插值 拉格…

Windows+Ubuntu-18.04双系统装机指南

WindowsUbuntu-18.04双系统装机指南 在看了网上很多的指南和教程之后&#xff0c;外加踩了好几个坑&#xff0c;最后终于安装成功&#xff0c;这里做一个记录&#xff0c;免得以后又需要安装。 文章目录(0) 准备工具(1) 准备分区(2) 制作启动U盘(3) 进入BIOS(4) 安装Ubuntu(5) …

规划模型的典型例题

规划模型的典型例题 文章目录(1) 平板装货问题(2) 选修课策略问题问题1问题2(3) 最优组队问题(1) 平板装货问题 有七种规格的包装箱要装到两辆平板车上。包装箱的宽和高是一样的&#xff0c;但厚度t (厘米)和重量w (公斤)是不同的。下表给出了每种包装箱的厚度&#xff0c;重量…