Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
20
分类
4
标签
36
历史归档
文章分类
文章标签
Github
About Me
友链
开往
LLM
🪸
PPO(1)算法详解
LLM
2025-2-28
RM
llm
🕍
LLM训练数据格式
LLM
2025-1-16
数据
llm
🪸
PPO(0)强化学习基础
LLM
2024-12-23
RM
llm
🛻
自定义special_tokens
LLM
2024-12-16
llm
model
🏍️
deepspeed训练显存消耗
LLM
2024-8-28
分布式
deepspeed
train
💬
CO-STAR Prompt
LLM
2024-8-26
prompt
llm
🕸️
Nvidia DGX-1 拓扑结构
LLM
2024-8-26
分布式
🖼️
多模态入门记录
LLM
2024-8-26
多模态
llm
1
2
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
文章
20
分类
4
标签
36
最新发布
vibe coding for 前端
2026-3-14
PPO(1)算法详解
2026-3-5
总结:PPO GRPO GSPO RLOO Loss 分析
2026-3-5
openclaw 飞书配置踩坑记
2026-3-5
扫盲 reward hacking 和 熵坍缩
2026-3-4
MoE 模型的路由重放 → R3
2026-2-24
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐