Agent-as-Judge for Factual Summarization of Long Narratives

Multi-Agent arxiv arXiv:2501.09993 PDF ↗

summarizationfactualjudgelongnarrativesagentnarrativesmetricsdemonstrated

Large Language Models (LLMs) have demonstrated near-human performance in summarization tasks based on traditional metrics such as ROUGE and BERTScore. However, these metrics do not adequately capture critical aspects of summarization quality, such as factual accuracy, particularly for long narratives (>100K tokens). Recent advances, such as LLM-

Status

5~10분. 제목→초록→인트로→섹션헤더→그림→결론만.
판단: 어떤 문제를 풀고 / 핵심 아이디어 / 내 작업과 관련 있나?

~1시간. 그림·표를 꼼꼼히. 증명·수식 디테일은 건너뜀.
산출물: "이들이 뭘 했고 왜 그게 통하는가" 한 문단.

재현하듯 읽기. 가정을 의심. 직접 인용/반박할 논문만.
렌즈: "내 플릿에서 측정하면 저자가 못 한 무엇을 보여줄 수 있나?"

View in Knowledge Graph →

Agent-as-Judge for Factual Summarization of Long Narratives

Related Papers (5)