โ Back
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
relativetournamentendedopenscalingrankingarenarlrankingarenarl
Proposes a reinforcement learning paradigm that replaces pointwise scalar scoring with intra-group relative ranking via tournament-based schemes to address discrimination collapse in reward models for open-ended agent tasks.
5~10๋ถ. ์ ๋ชฉโ์ด๋กโ์ธํธ๋กโ์น์
ํค๋โ๊ทธ๋ฆผโ๊ฒฐ๋ก ๋ง.
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
~1์๊ฐ. ๊ทธ๋ฆผยทํ๋ฅผ ๊ผผ๊ผผํ. ์ฆ๋ช
ยท์์ ๋ํ
์ผ์ ๊ฑด๋๋.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฌํํ๋ฏ ์ฝ๊ธฐ. ๊ฐ์ ์ ์์ฌ. ์ง์ ์ธ์ฉ/๋ฐ๋ฐํ ๋
ผ๋ฌธ๋ง.
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"