โ Back
Agent-as-Judge for Factual Summarization of Long Narratives
summarizationfactualjudgelongnarrativesagentnarrativesmetricsdemonstrated
Large Language Models (LLMs) have demonstrated near-human performance in summarization tasks based on traditional metrics such as ROUGE and BERTScore. However, these metrics do not adequately capture critical aspects of summarization quality, such as factual accuracy, particularly for long narratives (>100K tokens). Recent advances, such as LLM-
5~10๋ถ. ์ ๋ชฉโ์ด๋กโ์ธํธ๋กโ์น์
ํค๋โ๊ทธ๋ฆผโ๊ฒฐ๋ก ๋ง.
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
ํ๋จ: ์ด๋ค ๋ฌธ์ ๋ฅผ ํ๊ณ / ํต์ฌ ์์ด๋์ด / ๋ด ์์ ๊ณผ ๊ด๋ จ ์๋?
~1์๊ฐ. ๊ทธ๋ฆผยทํ๋ฅผ ๊ผผ๊ผผํ. ์ฆ๋ช
ยท์์ ๋ํ
์ผ์ ๊ฑด๋๋.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฐ์ถ๋ฌผ: "์ด๋ค์ด ๋ญ ํ๊ณ ์ ๊ทธ๊ฒ ํตํ๋๊ฐ" ํ ๋ฌธ๋จ.
์ฌํํ๋ฏ ์ฝ๊ธฐ. ๊ฐ์ ์ ์์ฌ. ์ง์ ์ธ์ฉ/๋ฐ๋ฐํ ๋
ผ๋ฌธ๋ง.
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"
๋ ์ฆ: "๋ด ํ๋ฆฟ์์ ์ธก์ ํ๋ฉด ์ ์๊ฐ ๋ชป ํ ๋ฌด์์ ๋ณด์ฌ์ค ์ ์๋?"