English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
40:01
bilibili
外番の声
[中配] 近端策略优化(PPO)- 如何训练大型语言模型 - Serrano.Academy
[中配] 近端策略优化(PPO)- 如何训练大型语言模型 - Serrano.Academy 2024年1月24日 用于大语言模型的强化学习 基于人类反馈的强化学习(RLHF)是一种用于训练大型语言模型(LLMs)的方法。在RLHF的核心中,包含一种非常强大的强化学习方法——近端策略优化 ...
已浏览 52 次
1 个月前
RL Prod Beats
1:31
JRedie - Slim Shady (Official Music Video )
YouTube
Jredie2
已浏览 1.9万 次
2 个月之前
2:42
(FREE) R&B x Trapsoul Type Beat - "Complicated" | Smooth R&B Instrumental
YouTube
COLD MELODY
已浏览 71.7万 次
2024年4月15日
3:51
445K views · 36K reactions | TIN TIN RAP BASE DE RAP ESTILO TUMBADO PROD El Cholo Beats Reproduce Si quieres adquirir esta o cualquier otra pista manda mensaje pará más información MI CANAL DE YOUTUBE https://youtube.com/@ElCholoBeatsReproduce | El Cholo Beats Reproduce | Facebook
Facebook
El Cholo Beats Reproduce
已浏览 44.5万 次
3 周前
热门视频
7:12
Policy Optimization in Reinforcement Learning
YouTube
om
已浏览 3 次
1 个月前
12:06
GRPO Family: Group Relative Policy Optimization RL opt [TIC-GRPO, Scaf-GRPO, XRPO, GRPO-CARE, CPPO]
YouTube
AI Podcast Series. Byte
已浏览 31 次
3 周前
0:39
🔍 Understanding Proximal Policy Optimization (PPO) Advanced Reinforcement Learning for AI
YouTube
Chain
1 个月前
RL Prod Type Beat
2:17
Brandão x Leviano Type Beat – "FORASTEIRO"
YouTube
Cewey
已浏览 12 次
1 个月前
1:42
(FREE) ПЛАТИНА + PLOHOYPAREN Type Beat
YouTube
rksthegoat
已浏览 681 次
1 个月前
3:04
24K views · 641 reactions | [FREE] BEAT RAP BOOM BAP FREESTYLE BOOM BAP TYPE BEAT x RAP INSTRUMENTAL "Old" - (Prod.charlie) | Charlie B33tz | Facebook
Facebook
Charlie B33tz
已浏览 7933 次
1 周前
7:12
Policy Optimization in Reinforcement Learning
已浏览 3 次
1 个月前
YouTube
om
12:06
GRPO Family: Group Relative Policy Optimization RL opt [TIC-GRPO, S
…
已浏览 31 次
3 周前
YouTube
AI Podcast Series. Byte Goose AI.
0:39
🔍 Understanding Proximal Policy Optimization (PPO) Advanced Rei
…
1 个月前
YouTube
Chain
1:46
PPO Algorithm in Gaming 🚀 Reinforcement Learning AI Plays
…
已浏览 51 次
3 周前
YouTube
SystemDR - Scalable System Design
1:38
RL vs. Traffic: How AI Solves the OD Puzzle (Game-Changer) #Shorts
2 个月之前
YouTube
CollapsedLatents
1:55
How PPO Works in Game AI | Deep Reinforcement Learning Tutorial
已浏览 98 次
3 周前
YouTube
SystemDR - Scalable System Design
Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da
…
2020年9月21日
towardsdatascience.com
RL4.2 - Basic idea of policy gradient
已浏览 9627 次
2023年3月14日
YouTube
Gerstner Lab
Advanced Deep Reinforcement Learning Algorithms | PPO, TRPO
…
已浏览 295 次
10 个月之前
YouTube
Professor Rahul Jain
GRPO | Group Relative Policy Optimization (GRPO ) architectur
…
已浏览 159 次
10 个月之前
YouTube
AILinkDeepTech
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列 #3
已浏览 11 次
4 个月之前
YouTube
Up-Fei
33:53
【PPO】【已完结】PPO第二部分 完整实现和代码解读
已浏览 7476 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
31:16
简单解释近端策略优化算法(PPO):全白板详细讲解
已浏览 500 次
5 个月之前
bilibili
robert_zeng
53:45
强化学习策略梯度之proximal policy optimization PPO理论与代码(上)
已浏览 1万 次
2022年3月26日
bilibili
Stevensong铁维
5:18
出征冒险岛-强化学习-近端策略优化算法(PPO)
已浏览 5553 次
2024年12月25日
bilibili
阿chen与梯度魔法
21:15
DPO直接偏好优化算法 (动画讲解)
已浏览 8297 次
2024年10月26日
bilibili
数源创域
19:50
深度强化学习之策略梯度方法与近似策略优化(PPO)
已浏览 5770 次
2018年10月2日
bilibili
爱可可-爱生活
11:18
如何直观理解PPO算法?博士详解近端策略优化算法原理 公式推导 训练
…
已浏览 1.4万 次
2024年9月25日
bilibili
迪哥AI研习社
7:50
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms)
已浏览 256 次
2 个月之前
bilibili
小迪学AI
11:31
Reinforcement Learning in DeepSeek-R1 | Visually Explained
已浏览 4.2万 次
1 年前
YouTube
AGI Lambda
36:25
DPO算法详解 : Direct Preference Optimization 算法详解 (RLHF的替
…
已浏览 2638 次
2023年12月12日
bilibili
聚焦AIGC
41:34
DRL Lecture 2: Proximal Policy Optimization (PPO)
已浏览 76 次
2024年2月2日
bilibili
iJOYWIN
17:50
Proximal Policy Optimization Explained
已浏览 7.6万 次
2021年5月20日
YouTube
Edan Meyer
11:05
AI Learns to Park - Deep Reinforcement Learning
已浏览 309.9万 次
2019年8月23日
YouTube
Samuel Arzt
19:25
【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数
已浏览 9575 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
13:45
An Introduction to Proximal Policy Optimization (PPO) in Deep Reinfo
…
已浏览 1.8万 次
2019年6月3日
YouTube
Udacity-DeepRL
35:01
Let's Code Proximal Policy Optimization
已浏览 1.7万 次
2021年5月28日
YouTube
Edan Meyer
48:42
[LLM RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现(advantage
…
已浏览 5.1万 次
11 个月之前
bilibili
五道口纳什
19:54
Round Robin Scheduling - Solved Problem (Part 1)
已浏览 55.9万 次
2019年10月16日
YouTube
Neso Academy
观看更多视频
更多类似内容
反馈