深度学习-梯度下降算法-NLP(五)

梯度下降算法

  • 深度学习中梯度下降算法简介
    • 找极小值问题
      • 数学上求最小值
      • 梯度
      • 梯度下降算法
    • 找极小值问题在深度学习流程中
      • 深度学习整体流程图
      • 求解损失函数的目标
      • 权重的更新

深度学习中梯度下降算法简介

找极小值问题

引子: 我们训练一个人工智能模型,简单点说,就是根据数据,调整模型的参数,使模型预测的值和我们数据的值一样。但一开始肯定不一样,所以我们引入损失函数,用它来计算,还差多少;差多少我们求出来,我们怎么调整原有模型里面的参数呢?

哎! 调整原有模型的参数目的就是为了使得预测的值和要求值一样嘛,是不是求一个模型参数可以使得计算出的预测值和要求值之间的差距最小呢?===》这就是找极小值问题

所以本质上就是求损失函数的极小值。

数学上求最小值

在这里插入图片描述
拆解示意:
目标: 找到合适的x值,使得f(x)最小。
逻辑

1.任取一点x0,计算在这一点的导数值f(x0)
2.根据导数的正负,决定x0应当调大还是调小;导数为正,那么就调小x;因为增大,y也会增大;导数为负,增大x
3.迭代进行1,2步直到导数为0;或者导数变号了。
什么情况下导数为变号?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)

梯度

梯度: 可以直接理解就是导数,只是在深度学习中,通常不是一个导数,即对多元函数进去求导。
在这里插入图片描述
举个例子:
一元函数:

原函数:y=5x^2
导函数:y= 10x
即在x=1时,导数值为10

多元函数

三元函数:y=2x^2 + 6z^2 + 7m^3
导函数(即对三个未知数进行偏导求解):y={4x,12z,21m^2}
在[1,1,1]处的梯度为[4,12,21];并且梯度是个向量

都是对函数进行求导,可以用导数去理解梯度

梯度下降算法

释义: 梯度下降算法就是计算出模型在输入数据的梯度,然后通过学习率对模型原有的权重参数进行更新的一个逻辑,其中使用的算法有多类,我们会介绍到
在这里插入图片描述

找极小值问题在深度学习流程中

深度学习整体流程图

如下示意图即为深度学习的流程图,其中找极小值问题价值就对应着损失函数–>优化器–>模型
在这里插入图片描述

求解损失函数的目标

1.损失函数越小,模型越好
2.学习的目标就是损失函数最小化
3.模型的权重影响损失函数
4.通过梯度下降来找最优权重

权重的更新

更新的逻辑

1.根据输入的x与模型当前的权重,计算预测值y1
2.根据y1和y使用loss函数算计loss
3.根据loss计算模型的权重的梯度
4.使用梯度和学习率,根据优化器来调整模型的权重

更新的方式:

1.所有的样本一起计算梯度(累加)Gradient descent
2.每次使用一个样本计算梯度 Stochastic gradient descent
3.每次使用n个样本计算梯度(累加)Mini-batch gradient descent

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/785129.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

记录一次Nginx的使用过程

一、Docker安装配置nginx 1.拉取镜像 docker pull nginx2.创建挂载目录 启动前需要先创建Nginx外部挂载目录文件夹 主要有三个目录 conf:配置文件目录log:日志文件目录html:项目文件目录(这里可以存放web文件) 创建挂…

【沐风老师】3DMAX建筑体块生成插件BuildingBlocks使用方法详解

BuildingBlocks建筑体块生成插件使用方法详解 听说你还在手动建配景楼?有了BuildingBlocks这个插件,一分钟搞定喔! 3DMAX建筑体块生成插件BuildingBlocks,用于快速自定义街道及生成配景楼区块。 【适用版本】 3dMax2019及更高版…

鸿蒙语言基础类库:【@ohos.process (获取进程相关的信息)】

获取进程相关的信息 说明: 本模块首批接口从API version 7开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。…

【专项刷题】— 位运算

常见类型介绍: & :有 0 就是 0 | :有 1 就是 1 ^ :相同为 0 ,相异为 1 或者 无进位相加给定一个数确定它的二进制位的第x个数是0还是1:将一个数的二进制的第x位改成1:将一个数的二进制的第x…

无人机在交通管理方面的应用与潜力

随着智能化和数字化技术的发展,无人机已经成为智慧交通管理体系中的重要一环。无人机能够搭载各种专业设备,如超清摄像头、红外热成像摄像头、目标跟踪器等,从而完成多任务的数据采集和快速机动的任务执行。这些数据通过无线传输实时回传&…

RxJava学习记录

文章目录 1. 总览1.1 基本原理1.2 导入包和依赖 2. 操作符2.1 创建操作符2.2 转换操作符2.3 组合操作符2.4 功能操作符 1. 总览 1.1 基本原理 参考文献 构建流:每一步操作都会生成一个新的Observable节点(没错,包括ObserveOn和SubscribeOn线程变换操作…

YOLOv10改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测模型)

一、本文介绍 本文给大家带来的改进机制是低照度图像增强网络PE-YOLO中的PENet,PENet通过拉普拉斯金字塔将图像分解成多个分辨率的组件,增强图像细节和低频信息。它包括一个细节处理模块(DPM),用于通过上下文分支和边…

【安全设备】日志审计

一、什么是日志审计 日志审计是一站式的日志数据管理平台,主要致力于提供事前预警、事后审计的安全能力, 通过对日志数据的全面采集、解析和深度的关联分析,及时发现各种安全威胁和异常行为事件。日志审计是指通过集中采集信息系统中的各类信…

Chain-of-Verification Reduces Hallucination in Lagrge Language Models阅读笔记

来来来,继续读文章了,今天这个是meta的研究员们做的一个关于如何减少LLM得出幻觉信息的工作,23年底发表。文章链接:https://arxiv.org/abs/2309.11495 首先,这个工作所面向的LLM的问答任务,是list-based q…

怎样优化 PostgreSQL 中对日期时间范围的模糊查询?

文章目录 一、问题分析(一)索引未有效利用(二)日期时间格式不统一(三)复杂的查询条件 二、优化策略(一)使用合适的索引(二)规范日期时间格式(三&a…

前沿重器[53] | 聊聊搜索系统6:精排

前沿重器 栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经…

IDEA启动tomcat之后控制台出现中文乱码问题

方法1: 第一步:file--setting--Editor--File Encodings 注意页面中全部改为UTF-8,然后apply再ok 第二步:Run--Edit Configuration,将VM options输入以下值: -Dfile.encodingUTF-8 还是一样先apply再ok …

视频图文理解关联技术与创业团队(二)

上一篇:google gemini1.5 flash视频图文理解能力初探(一)提到了gemini 1.5 flash 可以对视频进行理解以及分析,但是整体在检索任务上效果不佳。 这几天参加了人工智能大会 网上收集,看一看有相似能力的一些技术点、创…

生物素化果胶粒子包裹药物阿霉素;DOX/Bio-PEC

生物素化果胶粒子包裹药物阿霉素(DOX/Bio-PEC)是一种新型的药物载体系统,结合了生物素和果胶多糖的优势,旨在提高药物的靶向性和控释性能。以下是对该系统的详细解析: 一、生物素化果胶粒子的制备 原理与步骤&#xff…

独立开发者系列(22)——API调试工具apifox的使用

接口的逻辑已经实现,需要对外发布接口,而发布接口的时候,我们需要能自己简单调试接口。当然,其实自己也可以写简单的代码调试自己的接口,因为其实就是简单的request请求或者curl库读取,调整请求方式get或者…

甄选范文“论区块链技术及应用”,软考高级论文,系统架构设计师论文

论文真题 区块链作为一种分布式记账技术,目前已经被应用到了资产管理、物联网、医疗管理、政务监管等多个领域。从网络层面来讲,区块链是一个对等网络(Peer to Peer, P2P),网络中的节点地位对等,每个节点都保存完整的账本数据,系统的运行不依赖中心化节点,因此避免了中…

MATLAB基础应用精讲-【数模应用】分层聚类(附python代码实现)

目录 前言 知识储备 层次聚类 1. 算法解读: 2. 步骤和细节: 3. 举例: 4. 算法评价: 5. 算法的变体: 算法原理 基本思想 分层聚类网络的原理 分层聚类网络的优势 分层聚类网络的应用领域 SPSSAU 分层聚类案例 1、背景 2、理论 3、操作 4、SPSSAU输出结果…

Johnson Counter

目录 描述 输入描述: 输出描述: 参考代码 描述 请用Verilog实现4位约翰逊计数器(扭环形计数器),计数器的循环状态如下。 电路的接口如下图所示。 输入描述: input clk , input …

[氮化镓]Kevin J. Chen组新作—肖特基p-GaN HEMTs正栅ESD机理研究

这篇文章是发表在《IEEE Electron Device Letters》上的一篇关于Schottky型p-GaN栅极高电子迁移率晶体管(HEMTs)的正向栅极静电放电(ESD)机理研究的论文。文章由Jiahui Sun等人撰写,使用了基于碳化硅(SiC&a…

设计模式探索:观察者模式

1. 观察者模式 1.1 什么是观察者模式 观察者模式用于建立一种对象与对象之间的依赖关系,当一个对象发生改变时将自动通知其他对象,其他对象会相应地作出反应。 在观察者模式中有如下角色: Subject(抽象主题/被观察者&#xf…