Catarena Arxiv.zh

⚔️ 很激动发布 CATArena!我们构建了一个锦标赛式 benchmark,想追问一个更难也更真实的问题:Coding Agents 能否真的通过迭代反馈、自我反思和同伴经验变得更强?