โ Back
ClawBench: Evaluating Browser Agents on Live Production Websites with Submission-Interception
browserlivesubmissionwebsitesproductioninterceptioninterceptionclawbenchsites
Benchmarks browser agents on 283 everyday tasks (V1 153 + V2 130) across 163 live production sites, with a Chrome-extension plus CDP layer that blocks only the final write request so agents can run end-to-end on real sites without real-world side effects. Two-stage scoring (interception + LLM judge); leaderboard at https://claw-bench.com.
5~10๋ถ. ์ ๋ชฉโ์ด๋กโ์ธํธ๋กโ์น์
ํค๋โ๊ทธ๋ฆผโ๊ฒฐ๋ก ๋ง.
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
~1์๊ฐ. ๊ทธ๋ฆผยทํ๋ฅผ ๊ผผ๊ผผํ. ์ฆ๋ช
ยท์์ ๋ํ
์ผ์ ๊ฑด๋๋.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฌํํ๋ฏ ์ฝ๊ธฐ. ๊ฐ์ ์ ์์ฌ. ์ง์ ์ธ์ฉ/๋ฐ๋ฐํ ๋
ผ๋ฌธ๋ง.
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"