DSGBench：LLM智能体战略游戏评估

2025/08/28·StepFun can make mistakes, check important info.

https://arxiv.org/pdf/2503.06047 总结一下这个论文

Reason

附件解析

这篇论文介绍了 DSGBench，一个用于评估基于大型语言模型（LLM）的智能体在复杂决策环境中能力的多样化战略游戏基准。

多样化战略游戏集合：
- DSGBench 包含六个经典战略游戏：星际争霸II、文明、街头霸王III、外交、狼人杀 和军棋。
- 这些游戏涵盖了多种决策场景，包括长期战略规划、实时决策、社会推理、团队协作和自适应学习。
细粒度评估指标：
- DSGBench 提出了一套细粒度的评估指标，用于衡量智能体在五个关键维度上的表现：
  - 战略规划：评估智能体制定和执行长期战略的能力。
  - 实时决策：评估智能体在时间压力下做出有效决策的能力。
  - 社会推理：评估智能体理解和应对团队或竞争环境中互动的能力。
  - 团队协作：评估智能体在多智能体环境中有效合作的能力。
  - 自适应学习：评估智能体从经验和反馈中不断改进的能力。
决策轨迹跟踪机制：
- DSGBench 集成了详细的决策轨迹跟踪功能，使研究人员能够深入了解智能体的决策过程。
- 这有助于提高模型的可解释性，并促进智能体设计的进步。

模型性能差异：
- 封闭源模型（如 Gemini 1.5 Flash 和 GPT-4o）在大多数维度上表现出色，尤其是在战略规划和社会推理方面。
- 开源模型（如 DeepSeek-V2.5 和 Llama-3.1-70B-Instruct）在某些维度上表现良好，但在整体上与封闭源模型存在差距。
游戏类型的影响：
- 在结构化的回合制游戏中（如文明和军棋），封闭源模型在长期战略规划方面表现优异。
- 在实时游戏中（如 星际争霸II），开源模型在实时决策方面表现出色。
挑战与机遇：
- 所有模型在处理复杂、动态场景时都面临挑战，尤其是在时间推理和社会推理方面。
- DSGBench 为研究人员提供了一个强大的工具，用于评估和改进 LLM 智能体在复杂决策任务中的能力。

DSGBench 是一个全面的评估平台，能够系统地评估 LLM 智能体在复杂决策环境中的多维度认知和交互能力。通过多样化的游戏场景、细粒度的评估指标和详细的决策轨迹跟踪，DSGBench 为选择和改进 LLM 智能体提供了宝贵的见解。