Longxinchen's Blog

一张图串讲dpsk-math-v2的十几种强化学习提分思路

一张图串讲dpsk-math-v2的十几种强化学习提分思路

2 min read · March 12, 2026

2026 · reinforcement-learning
LLM强化学习中KL正则到底能不能去掉？

LLM强化学习中KL正则到底能不能去掉？

2 min read · March 10, 2026

2026 · reinforcement-learning
一张表串讲LLM-RL中KL散度正则的正确与错误用法

一张表串讲LLM-RL中KL散度正则的正确与错误用法

3 min read · February 11, 2026

2026 · reinforcement-learning
一图串讲GRPO十几种主流变体算法

一图串讲GRPO十几种主流变体算法

2 min read · February 10, 2026

2026 · reinforcement-learning