Streaming-DRL Streaming-DRL 原文:Streaming Deep Reinforcement Learning Finally Works 摘要:流式学习(streaming learning),使用最新样本,不做存储。适用于资源有限,通信受限,隐私敏感的场景。深度学习采用批量学习和经验回放,样本利用率高。相比之下,流式学习有一个更致命的问题——流式障碍(stream barrier) 2025-01-17 论文笔记 Streaming-DRL
TRPO TRPO 摘要:一种策略改进过程,保证单调改进。通过对理论进行几次近似,开发了TRPO算法。该算法类似于自然梯度策略(natural policy gradient)方法。尽管近似值与理论有所偏差,但它往往能够实现单调改进,几乎不用调超参。 背景 大多数策略优化算法可以分为三类:1)策略迭代方法(policy iteration methods),即基于值函数的方法;2)策略梯 2025-01-17 论文笔记 MARL
torch节省显存方法 torch节省显存方法 手动删除变量 12del vartorch.cuda.empty_cache() 禁止自动梯度计算 自动梯度计算似乎还挺占显存的,不需要的情况下最好关掉 12with torch.no_grad(): tensor1 = tensor2 @ tensor3 降低数据精度 修改精度时不要用tensor.float(),tensor.int()这 2025-01-17 工程技术 DL torch
pymarl源码解读 pymarl源码解读 源代码仓 https://github.com/oxwhirl/pymarl 实现算法: QMIX: QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning COMA: Counterfactual Multi-Agent Po 2025-01-17 MARL MARL env
GRF环境配置 GRF环境配置 源代码仓 https://github.com/google-research/football 安装依赖 12345sudo apt-get install git cmake build-essential libgl1-mesa-dev libsdl2-dev \libsdl2-image-dev libsdl2-ttf-dev libsdl2-gfx-dev 2025-01-17 MARL MARL env