Q's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  •   
  •   

ubuntu18.04配置mujoco

ubuntu18.04配置mujoco 流程 安装mujoco 下载mujoco,解压到~/.mujoco路径下 下载mjkey.txt,分别存放到~/.mujoco/mjkey.txt和~/.mujoco/mujoco200/bin/mjkey.txt 修改.bashrc文件,添加环境变量 1234567# MUJOCO200 STARTexport MUJOCO_PATH=$HOME/.mu

2025-03-15
工程技术
env RL

The Primacy Bias in Deep Reinforcement Learning

The Primacy Bias in Deep Reinforcement Learning 原文:The Primacy Bias in Deep Reinforcement Learning 深度强化学习存在一种普遍缺陷——倾向于依赖早期的交互,而忽略后来遇到的有用证据(现象背后就是模型可塑性的丧失) 文章将这种现象用描述为primacy bias(首因效应。来自认知科学。感觉翻译成先入为

2025-02-22
论文笔记
DRL

SimBa - Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning

SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning 原文:SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning 在DRL领域,如何设计网络使其能够从扩展参数量获益,出发点依然是“如何将

2025-02-19
论文笔记
DRL

Streaming-DRL

Streaming-DRL 原文:Streaming Deep Reinforcement Learning Finally Works 摘要:流式学习(streaming learning),使用最新样本,不做存储。适用于资源有限,通信受限,隐私敏感的场景。深度学习采用批量学习和经验回放,样本利用率高。相比之下,流式学习有一个更致命的问题——流式障碍(stream barrier),即学习不稳

2025-02-19
论文笔记
Streaming-DRL

The Dormant Neuron Phenomenon in Deep Reinforcement Learning

The Dormant Neuron Phenomenon in Deep Reinforcement Learning 原文:The Dormant Neuron Phenomenon in Deep Reinforcement Learning 当前的训练技术,并不能够充分发挥网络的能力。 这篇工作介绍了DRL领域的一种现象——模型随着训练丧失拟合能力。 这同休眠神经元现象(dormant

2025-02-18
论文笔记
DRL

torch节省显存方法

torch节省显存方法 手动删除变量 12del vartorch.cuda.empty_cache() 禁止自动梯度计算 自动梯度计算似乎还挺占显存的,不需要的情况下最好关掉 12with torch.no_grad(): tensor1 = tensor2 @ tensor3 降低数据精度 修改精度时不要用tensor.float(),tensor.int()这种语法,因为不清楚具

2025-01-12
工程技术
深度学习 torch

TRPO论文笔记

TRPO论文笔记 摘要:一种策略改进过程,保证单调改进。通过对理论进行几次近似,开发了TRPO算法。该算法类似于自然梯度策略(natural policy gradient)方法。尽管近似值与理论有所偏差,但它往往能够实现单调改进,几乎不用调超参。 背景 大多数策略优化算法可以分为三类:1)策略迭代方法(policy iteration methods),即基于值函数的方法;2)策略梯度方法(

2025-01-09
MARL
MARL 论文笔记

GRF环境配置

GRF环境配置 源代码仓 https://github.com/google-research/football 安装依赖 12345sudo apt-get install git cmake build-essential libgl1-mesa-dev libsdl2-dev \libsdl2-image-dev libsdl2-ttf-dev libsdl2-gfx-dev libbo

2024-11-12
MARL
MARL env

pymarl源码解读

pymarl源码解读 源代码仓 https://github.com/oxwhirl/pymarl 实现算法: QMIX: QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning COMA: Counterfactual Multi-Agent Policy Gradie

2024-11-11
MARL
MARL env

搜索

Hexo Fluid
总访问量 次 总访客数 人