HuangMeow's picture

2

HuangMeow

Luckyyy

LuckyyySTA

AI & ML interests

None yet

Recent Activity

authored a paper 2 days ago

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

upvoted a paper 2 days ago

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

upvoted an article 6 days ago

DenseR: Dense Rewards For Free in LLM Reasoning

View all activity

Organizations

None yet

Papers 1

arxiv:2602.10693

models 0

None public yet

datasets 0

None public yet