SuperCLUE-Agent

SuperCLUE-Agent: Agent智能体中文原生任务能力测评基准

榜单地址:www.SuperCLUEAI.com
Github项目地址:
https://github.com/CLUEbenchmark/SuperCLUE-Agent



一、介绍


LLM大模型作为 AI Agent(智能体)的研究和应用正在不断发展,AI Agent智能体无疑最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。

AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能体,有代表性的Agent比如AutoGPT、AgentGPT等。

现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评,这无疑限制了国内Agent的发展。

为此,我们推出了SuperCLUE-Agent。这是一个聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。

经过对16个支持中文的大语言模型的测评,我们发现:在Agent的核心基础能力中文任务上,GPT4模型大幅领先;同时,代表性国内模型,包括开源和闭源模型,已经较为接近GPT3.5水平。


二、SuperCLUE-Agent


SuperCLUE-Agent包括10个任务,分布于3大核心基础能力。

具体任务如下:

维度一:工具使用

调用API:该任务的主要目的是评估AI Agent调用API的能力。主要考察AI Agent是否可以根据给定API的描述精确调用API,并正确响应API返回的能力。

检索API:该任务的主要目的是评估AI Agent检索API的能力。主要考察AI Agent选择可能解决用户需求的API,并通过阅读文档来学习如何使用它们。

规划API:该任务的主要目的是评估AI Agent在检索和调用API之外的规划能力。考虑到不明确的用户请求(例如预订航班/酒店进行旅行)或者更复杂的请求,模型可能需要进行多次API调用来解决问题。

通用工具使用:评估大模型使用通用工具的能力。包括但不限于:使用搜索引擎、浏览网页、操作本地文件、搜索本地文件、使用数据库等等。

维度二:任务规划

任务分解:该类任务的目的是评估AI Agent对任务规划的能力,总体来说,它评估的是AI Agent将大型任务分解为较小的、可管理的子目标,从而能够高效地处理复杂任务的能力。

自我反思:该类任务的目标评估AI Agent 对过去的行为进行自我批评和反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量的能力。

思维链(CoT):该任务主要考察的是AI Agent利用更多的推理时间和过程,将困难的任务分解为更小、更简单的步骤的能力,着重考察AI Agent是如何一步一步通过思考来解决问题的能力。

维度三:长短期记忆

多文档问答:主要考察AI Agent在多个文档中提取并组合答案的能力。

长程对话:在现实世界中的长对话中,用户通常会使用大模型谈论几个话题并在其中切换。比如主题检索任务,是通过要求大模型检索由多个主题组成的长对话中的开头和中间过程的主题来测试这种场景。

少样本示例学习(In-context Learning):也称情境学习,是一种特定的提示工程方法,其中任务的示例作为提示的一部分提供给模型。它是一种高阶的涌现能力,你可以使用现成的大型语言模型(LLM)来解决新任务,而无需进行微调。


三、评测结果


我们首批测评选择了国内外有代表性的16个闭源/开源的模型,整体表现情况如下:



各模型在多层次能力上的表现如下:




榜单地址:www.SuperCLUEAI.com

我们选择了一些代表性模型,通过雷达图展示在各个基础任务上的能力分布。



四、结论与分析


在我们的研究中,我们可以得出三个主要结论:

结论1:在Agent核心基础能力上,国内模型已经较为接近GPT3.5水平。

国内大模型经过近一年的大跃迁,最好的两个模型与GPT3.5的差距在6-10分。其中既有闭源的中文大模型,也有开源的中文大模型。当然我们也要看到,即便是GPT3.5,总分依然没有达到60分。这说明类似Agent这种要求大模型高阶能力的任务,对当前支持中文的大模型是非常有挑战性的。

结论2:国内开源模型已经具备比较强的竞争力,某些方面超过了一些闭源模型。

在SuperCLUE-Agent上,当前测试的首批大模型中,国内最好的模型是开源模型。这可能与大家之前的认识有所不同。开源模型甚至超过了多个比较有代表性的国内闭源模型。

在大模型时代的开源模型,就像Meta发布的Llama2一样,我们国内的开源大模型可以具有很大的影响力和竞争力。

结论3:GPT4效果仍然遥遥领先。

GPT-4在SuperCLUE-Agent的10个任务中有8个任务表现最佳,即使在「任务分解」上也取得了76.15分的成绩。这表明GPT4在智能体方面具有非常大的优势,但值得肯定的是,国内有部分模型在某些任务上表现也可圈可点。


但同时,国内的一些模型,声称媲美甚至超越GPT4,但是在SuperCLUE-Agent上,我们看到仍有非常大的进步空间(30分的差距)。

另外,通过分析各个模型在具体任务上的表现,我们观察到了一些值得注意的地方 :

支持上下文的长度。在长程对话任务上,Claude2超过了GPT4,这可能是由于Claude2支持100K上下文远大于GPT4的8K,所以扩展上下文窗口或许是国内模型在Agent能力上突破的方向之一。

使用工具的广度和深度。在考验模型对各种开源API的使用时,很多模型并未按要求写出最好的完成方法。例如在执行一些python任务时,调用方法有误或未意识到去调用高效的库和软件包。

任务规划的指令理解和拆解能力。我们会考察一些资源规划(时间、花费上的计算分配)的任务,某些模型未遵循指令,或意识到了资源的分配计算,但是在计算时往往出错,同时未能通过【自我反思】进行纠正。


五、示例


维度一:工具使用

调用API

调用API,主要考察AI Agent是否可以根据给定API的描述精确调用API,并正确响应API返回的能力。


检索API

调用API,主要考察AI Agent选择可能解决用户需求的API,并通过阅读文档来学习如何使用它们。


规划API

规划API,估AI Agent在检索和调用API之外的规划能力。考虑到不明确的用户请求(例如预订航班/酒店进行旅行)或者更复杂的请求, 模型可能需要进行多次API调用来解决问题。


通用工具使用

评估大模型使用通用工具的能力。包括但不限于:使用搜索引擎、浏览网页、操作本地文件、搜索本地文件、使用数据库等等。


维度二:任务规划

任务分解

任务分解,它评估的是AI Agent将大型任务分解为较小的、可管理的子目标,从而能够高效地处理复杂任务的能力。


自我反思

该类任务的目标评估AI Agent对过去的行为进行自我批评和反思。从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量的能力。


思维链(CoT)

该任务主要考察的是AI Agent利用更多的推理时间和过程,将困难的任务分解为更小、更简单的步骤的能力,着重考察AI Agent是如何一步一步通过思考 来解决问题的能力。


维度三:长短期记忆

示例学习(In-context Learning)

示例学习(也称情境学习),是一种特定的提示工程方法,其中任务的示例作为提示的一部分提供给模型。它是一种高阶的涌现能力, 你可以使用现成的大型语言模型(LLM)来解决新任务,而无需进行微调。


长程对话

在现实世界中的长对话中,用户通常会使用大模型谈论几个话题并在其中切换。比如主题检索任务,是通过要求大模型检索由多个主题组成的长对话中的开头和中间过程的主题来测试这种场景。


多文档问答

主要考察AI Agent在多个文档中提取并组合答案的能力。


SuperCLUE-Agent榜单会定期进行更新,会纳入更多可用中文大模型。欢迎对大模型评测感兴趣的个人和机构联系与交流。


讨论交流与使用



联系邮箱: CLUEbenchmark@163.com


SuperCLUE中文大模型排行榜(2023年7月)


总榜单,包括基础能力、中文特性和专业能力
排名 模型 机构 总分 基础能力 中文特性 学术专业 许可证
🧝 人类 CLUE 83.66 85.03 82.29 - -
- GPT-4 OpenAI 70.89 70.04 72.67 69.96 专有服务
🏅 文心一言(v2.2.0) 百度 62.00 61.11 71.38 53.50 专有服务
- Claude-2 Authropic 60.94 62.01 61.18 59.63 专有服务
- gpt-3.5-turbo OpenAI 59.79 64.40 63.19 51.78 专有服务
🥈 ChatGLM-130B 清华大学&智谱AI 59.35 53.78 71.39 52.89 专有服务
🥉 讯飞星火(v1.5) 科大讯飞 58.02 63.32 65.72 45.03 专有服务
- Claude-instant-v1 Authropic 56.31 58.85 55.91 54.16 专有服务
4 360智脑(4.0) 360 55.04 56.68 62.54 45.88 专有服务
5 internlm-chat-7b 上海AI实验室与商汤 53.91 54.85 61.35 45.53 开源-可商用
6 ChatGLM2-6B 清华大学&智谱AI 53.85 55.60 63.59 42.37 开源-可商用
7 MiniMax-abab5.5 MiniMax 53.06 53.61 62.79 42.77 专有服务
8 通义千问(v1.0.3) 阿里巴巴 51.52 52.84 61.73 39.98 专有服务
9 Baichuan-13B-Chat 百川智能 49.35 50.46 55.38 42.21 开源-可商用
10 BELLE-LLaMA-13B-2M-enc 链家 46.60 48.71 52.99 38.10 开源-非商用
11 IDEA-姜子牙-13B-v1.1 深圳IDEA研究院 43.80 47.55 48.61 35.26 开源-非商用
12 phoenix-7B 香港中文大学 41.57 45.39 44.62 34.70 开源-可商用
13 MOSS-16B 复旦大学 35.36 37.01 38.01 31.07 开源-可商用
14 Llama-2-13B-chat Meta 34.26 35.85 37.37 29.57 开源-可商用
15 Vicuna-13B UC伯克利 31.70 34.61 33.71 26.80 开源-非商用
16 RWKV-7B-World-CHNtuned RWKV基金会 27.83 30.71 28.13 24.66 开源-可商用
注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名。

2023年7月SuperCLUE基础能力榜单


基础能力,包含10项子能力
排名 模型 平均分 语义理解 闲聊 对话 角色扮演 知识与百科 生成与创作 逻辑与推理 代码 计算 安全
🧝 人类 85.03 90.17 71.53 77.99 82.19 97.44 68.79 90.55 90.45 94.97 86.22
- gpt-4 70.04 82.91 46.77 66.39 63.46 92.65 66.67 60.33 85.45 61.48 73.02
- gpt-3.5-turbo 64.40 87.18 45.16 65.57 60.58 85.29 72.36 42.98 72.73 38.52 72.22
🏅️ 讯飞星火(v1.5) 63.32 78.26 45.90 59.84 55.88 73.48 54.92 54.70 60.00 76.86 71.54
- Claude-2 62.01 83.49 49.59 57.14 52.88 78.68 68.07 53.72 66.06 44.26 65.60
🥈 文心一言(v2.2.0) 61.11 81.90 46.34 56.67 59.80 86.76 47.73 36.52 65.79 52.63 70.63
- Claude-instant-v1 58.85 76.52 50.00 58.20 55.77 77.04 61.48 40.00 66.97 33.61 67.77
🥉 360智脑(4.0) 56.68 76.92 52.46 58.33 54.08 76.80 61.54 37.29 53.64 29.57 67.92
4 ChatGLM2-6B 55.60 74.36 44.35 55.74 56.73 76.47 51.22 40.50 41.82 45.08 66.67
5 internlm-chat-7b 54.85 80.34 48.39 55.74 55.77 77.94 36.59 37.19 51.82 34.43 68.25
6 ChatGLM-130B 53.78 70.94 45.97 56.56 61.54 75.74 55.28 29.75 45.45 31.15 63.49
7 MiniMax-abab5.5 53.61 79.49 45.97 59.84 60.58 85.29 47.97 29.75 30.00 31.97 61.11
8 通义千问 52.84 74.77 45.97 57.98 53.00 76.69 38.89 33.06 46.67 39.67 60.40
9 Baichuan-13B-Chat 50.46 64.10 41.94 50.00 52.88 75.00 57.72 27.27 40.91 31.15 60.32
10 BELLE-13B 48.71 68.38 46.77 51.64 53.85 64.71 25.20 32.23 48.18 31.97 63.49
11 IDEA-姜子牙-13B-v1.1 47.55 70.09 49.19 48.36 48.08 58.82 32.52 34.71 21.82 45.08 63.49
12 Phoenix-7B 45.39 66.67 41.94 43.44 43.27 55.15 44.72 31.41 36.36 33.61 55.56
13 MOSS-16B 37.01 54.70 39.52 40.16 45.19 35.29 34.96 24.79 32.73 27.05 37.30
14 Llama-2-13B-chat 35.85 52.14 41.94 40.98 32.69 33.82 38.21 28.93 23.64 27.05 38.10
15 Vicuna-13B 34.61 49.57 33.06 32.79 37.50 25.74 30.89 27.27 40.91 35.25 35.71
16 RWKV-7B-World-CHNtuned 30.71 31.62 20.16 22.13 26.92 27.21 23.58 22.31 36.36 60.66 36.51
注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名

2023年7月SuperCLUE中文特性榜单


中文特性,包含10项子能力
排名 模型 平均分 字形和拼音 字义理解 句法分析 文学 诗词 成语 歇后语 方言 对联 古文
🧝 人类 82.29 96.01 83.15 62.71 91.47 90.79 92.38 83.78 69.21 70.00 83.40
- gpt-4 72.67 62.83 68.07 85.48 88.08 75.68 95.12 70.15 38.40 71.52 67.31
🏅️ ChatGLM-130B 71.39 48.67 68.07 75.00 83.44 84.68 95.94 67.16 45.60 70.86 72.12
🥈 文心一言(v2.2.0) 71.38 59.34 70.34 73.33 86.58 82.88 95.12 60.31 37.60 71.03 73.79
🥉 讯飞星火(v1.5) 65.72 47.32 68.38 77.42 72.03 69.09 89.43 59.85 35.77 71.23 63.46
4 ChatGLM2-6B 63.59 45.13 60.50 66.13 78.81 63.06 89.43 64.18 33.60 64.24 66.35
- gpt-3.5-turbo 63.19 46.02 69.75 75.81 75.50 57.66 89.43 55.97 36.00 57.62 66.35
5 MiniMax-abab5.5 62.79 46.90 57.98 63.71 75.50 71.17 86.99 60.45 41.60 58.94 62.50
6 360智脑(4.0) 62.54 45.45 63.83 63.53 71.43 70.73 97.06 60.47 38.46 64.96 73.21
7 通义千问 61.73 41.59 60.87 60.66 73.65 67.89 88.24 51.91 40.68 68.97 57.89
8 internlm-chat-7b 61.35 41.59 58.82 62.10 76.16 68.47 86.18 61.94 32.80 57.62 65.38
- Claude-2 61.18 48.67 70.94 70.16 67.55 54.05 83.74 58.21 36.00 60.67 59.62
- Claude-instant-v1 55.91 43.36 62.16 72.13 62.91 50.91 84.87 47.73 31.20 56.38 45.19
9 Baichuan-13B-Chat 55.38 45.13 58.82 50.81 73.51 70.27 75.61 47.01 33.60 44.37 54.81
10 BELLE-13B 52.99 42.48 55.46 67.74 56.29 46.85 78.05 38.06 33.60 59.60 49.04
11 IDEA-姜子牙-13B-v1.1 48.61 28.32 54.62 51.61 56.29 51.35 63.41 42.54 36.00 48.34 51.92
12 Phoenix-7B 44.62 30.09 51.26 43.55 51.66 45.95 65.85 35.07 32.00 45.03 44.23
13 MOSS-16 38.01 32.74 43.70 36.29 40.40 32.43 60.98 32.09 31.20 31.13 40.38
14 Llama-2-13B-chat 37.37 31.86 40.34 49.19 37.75 33.33 43.90 32.09 32.00 33.77 40.38
15 Vicuna-13B 33.71 21.24 34.45 45.16 29.14 22.52 33.33 36.57 22.40 49.67 38.46
16 RWKV-7B-World-CHNtuned 28.13 25.66 26.05 25.00 29.80 26.13 45.53 17.16 20.00 36.42 27.88
注:国外代表性非开源模型(GPT4.0/Claude/gpt-3.5)参与榜单,但不参与排名;歇后语:歇后语和谚语

2023年7月SuperCLUE开源榜单

排名 模型 机构 总分 基础能力 中文特性 学术专业 许可证
🧝 人类 CLUE 83.66 85.03 82.29 - -
🏅️ internlm-chat-7b 上海AI实验室与商汤 53.91 54.85 61.35 45.53 开源-可商用
🥈 ChatGLM2-6B 清华大学&智谱AI 53.85 55.60 63.59 42.37 开源-可商用
🥉 Baichuan-13B-Chat 百川智能 49.35 50.46 55.38 42.21 开源-可商用
4 BELLE-LLaMA-13B-2M-enc 链家 46.60 48.71 52.99 38.10 开源-非商用
5 IDEA-姜子牙-13B-v1.1 深圳IDEA研究院 43.80 47.55 48.61 35.26 开源-非商用
6 phoenix-7B 香港中文大学 41.57 45.39 44.62 34.70 开源-可商用
7 MOSS-16B 复旦大学 35.36 37.01 38.01 31.07 开源-可商用
8 Llama-2-13B-chat Meta 34.26 35.85 37.37 29.57 开源-可商用
9 Vicuna-13B UC伯克利 31.70 34.61 33.71 26.80 开源-非商用
10 RWKV-7B-World-CHNtuned RWKV基金会 27.83 30.71 28.13 24.66 开源-可商用
Copyright @2023