โ Back
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
scienceresearchsuitebenchfrontieragentsairsairspapers
Introduces 20 research tasks from real ML papers covering idea generation, experiments, and refinement for benchmarking science agents.
5~10๋ถ. ์ ๋ชฉโ์ด๋กโ์ธํธ๋กโ์น์
ํค๋โ๊ทธ๋ฆผโ๊ฒฐ๋ก ๋ง.
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
~1์๊ฐ. ๊ทธ๋ฆผยทํ๋ฅผ ๊ผผ๊ผผํ. ์ฆ๋ช
ยท์์ ๋ํ
์ผ์ ๊ฑด๋๋.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฌํํ๋ฏ ์ฝ๊ธฐ. ๊ฐ์ ์ ์์ฌ. ์ง์ ์ธ์ฉ/๋ฐ๋ฐํ ๋
ผ๋ฌธ๋ง.
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"