Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
SimonSun
文章
22
分类
4
标签
34
历史归档
文章分类
文章标签
Github
About Me
友链
开往
#llm

🏄‍♂️MoE 路由重放-R3

LLM
2026-1-20
llm
算法
论文
MoE 路由重放-R3

🐧Verl vs AReaL

LLM
2025-12-17
框架
llm
Verl vs AReaL

🗻扫盲 reward hacking

LLM
2025-12-4
llm
算法
扫盲 reward hacking

🗻扫盲 Online / Offline & On-policy / Off-policy

LLM
2025-11-28
llm
算法
扫盲 Online / Offline &  On-policy / Off-policy

🗻扫盲KL散度和交叉熵

LLM
2025-9-29
llm
算法
扫盲KL散度和交叉熵

🗻扫盲 Monte Carlo (MC) 和 Temporal Difference (TD)

LLM
2025-9-15
llm
算法
扫盲 Monte Carlo (MC) 和 Temporal Difference (TD)

💡总结:PPO GRPO GSPO Loss 分析

LLM
2025-8-6
llm
算法
总结:PPO GRPO GSPO Loss 分析

🏄‍♂️GRPO → GSPO → SAPO

LLM
2025-7-30
llm
算法
GRPO → GSPO → SAPO

🚀RAG技术汇总(4)高级检索方法

RAG
2025-7-22
RAG
llm
RAG技术汇总(4)高级检索方法

📚RAG技术汇总(3)上下文与内容丰富

RAG
2025-7-10
RAG
llm
RAG技术汇总(3)上下文与内容丰富

🪸强化学习(3) DPO

LLM
2025-6-25
RM
llm
强化学习(3) DPO

🔍RAG技术汇总(2)查询增强

RAG
2025-6-23
RAG
llm
RAG技术汇总(2)查询增强
12
SimonSun
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
文章
22
分类
4
标签
34
最新发布
MoE 路由重放-R3
MoE 路由重放-R3
2026-1-21
最近思考:少即是多
最近思考:少即是多
2026-1-20
PPO(1)算法详解
PPO(1)算法详解
2026-1-20
扫盲 Online / Offline &  On-policy / Off-policy
扫盲 Online / Offline & On-policy / Off-policy
2026-1-10
总结:PPO GRPO GSPO Loss 分析
总结:PPO GRPO GSPO Loss 分析
2025-12-30
GRPO → GSPO → SAPO
GRPO → GSPO → SAPO
2025-12-30
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐
 
2023-2026SimonSun.

Blog de Simon🫣 | Internet Malou, LLM Rookie, Bug Maker🤧

Powered byNotionNext 4.9.2.