SuperCLUE-Code3中文原生等级化代码能力测试基准

在人工智能的快速发展中，中文大模型在文本生成、推理能力、长文本处理等领域取得了很大的进步。然而，生成能直接运行使用的代码是AI领域的一大挑战，并且具有生产力级别的现实意义，对大模型的理解能力和创造力提出了更高要求。

尽管存在多个编程语言生成和理解的测试基准，如HumanEval，但它们大多基于英语，无法直接用于评估中文大模型在编程领域的表现。目前，中文编程环境缺乏一个专门的评测基准，这限制了中文大模型在代码生成方面能力的客观评估和优化。这一语言和文化差异导致中文大模型在编程任务上的潜力未能得到充分挖掘和利用。

为了缓解这一问题，我们推出了SuperCLUE-Code3测评集和基准。这是一个HumanEval的中文升级版，通过功能性单元测试，专门设计来评估和提升中文大模型在代码生成方面的核心能力。SuperCLUE-Code3（简称SC-Code3）不仅延续了HumanEval高质量，更在多样性和应用广度上进行了适当扩充。

SC-Code3基准具备以下特点：
1.中文原生环境测试：SC-Code3基准着重考查模型在处理中文编程问题上的性能，所有编程问题有多个测试用例、经过多重校验、可进行端到端的测试，
确保评估的准确性和专业性。
2.全面的任务类型：从字符串处理到数据分析到算法问题，SC-Code3基准包含了编程中的8种常见问题类型，旨在全面评估中文大模型在不同编程领域的能力。
3.多级难度评估：通过将测试任务分为初级、中级和高级，SC-Code3可以提供不同层次的评估结果，帮助模型开发者了解模型在不同复杂程度的编程问题上的表现。
总结来说，SC-Code3基准不仅填补了中文大模型在编程领域评估的空白，而且为模型的进一步研究和应用提供了关键、精准的评估工具和数据支持。
随着其在中文编程社区的推广和使用，我们期待中文大模型在编程语言理解和代码生成上能够取得更多突破，推动人工智能技术在更多领域的应用和发展。
项目地址：https://github.com/CLUEbenchmark/SuperCLUE-Code3
文章地址：https://www.CLUEbenchmarks.com/superclue_code3.html

SuperCLUE-Code3


理念
SC-Code3项目的目标是为中国基础模型发展提供一个专业的代码能力测试的基准，用于衡量具备生产力的代码能力，并为大模型代码能力发展提供指引和方向。
Code3可用于替代HumanEval来更好的测评中文大模型。具体的说，
我们希望提供一个端到端的功能性代码测试的基准，它是一个中文原生代码测试集，需要具有挑战性，并且可以按照难度等级报告大模型的能力。
SC-Code3与HumanEval的区别与联系



序号
对比项目
SuperCLUE-Code3
HumanEval




1
代码功能性单元测试
YES
YES


2
自然语言描述并包含示例
YES
YES


3
Python测试语言
YES
YES


5
中文原生场景
YES
NO


6
题目类型多样化
YES
NO


7
按难度等级评估能力
YES
NO


9
题目数量
195题
（1560个测试用例）
164题
（1263测试用例）


9
平均测试用例
8个
7.7个




示例






测评及计分方式
整体测评流程包括：1.获取模型答案；2.提取功能函数；3.测试功能函数；4.计算模型得分。
1.获取模型答案：
使用特定的prompt要求模型按照特定格式回答，以方便后续提取。对于一个代码补全问题，每个模型获取一次答案。
2.提取功能函数：
获取到模型回复之后，结合prompt要求和模型回答设定规则提取函数代码，并且统计模型回复遵循指令要求的情况。
3.测试功能函数：
对于一个代码补全问题，将提取得到的代码和该问题对应的所有测试用例组装成一个可运行的单元测试程序(示例如下)，

在沙箱环境运行（沙箱环境python版本设置为3.9）。注意，针对一个题目需要通过所有单元测试，才算通过。否则为未通过。
4.计算模型得分：
对于一个代码补全问题，构成一个单元测试，通过测试得1分。首先分别计算模型在初级，中级，
高级题目的平均得分score_level1，score_level2, score_level3，
然后计算加权得分。
按照问题难度的等级设定权重，初级，中级，高级权重分别设置1.0，2.0，3.0。模型最终得分为：
score_weighted = (1.0 * score_level1 + 2.0 * score_level2 + 3.0 * score_level3) / (1+2+3)
测试示例：
from typing import List
def inclusion_list(list1:list[float], list2:list[float]) -> bool:
    """给定两个数字列表，判断list1是否包含list2中的所有元素？
    >>> inclusion_list([1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0], [3.0, 4.0, 5.0])
    True
    >>> inclusion_list([1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0], [3.0, 4.0, 5.0, 8.0])
    False
    """
    return all(elem in list1 for elem in list2)

def check(candidate):
    assert candidate([1.1, 1.2, 2.0, 3.0, 3.5], [0, 1.1, 2.1]) == False
    assert candidate([1.1, 1.2, 2.0, 3.0, 3.5], [1.1, 1.2, 2.0]) == True
    assert candidate([1.0, 2.0, 3.0, 4.5, 5.1], [1.0]) == True

check(inclusion_list)


难度的划分
为了全面评估大模型的编程能力，我们设定了不同级别的测试题目，每一级别均旨在衡量模型在特定复杂度下的编程逻辑和实现能力：
1. 初级难度:
这一级别的题目设计简单明了，模型只需执行基础的数据操作，如增加、删除、查找和修改。解题过程不应超过两次数据遍历，且通常能够在两个步骤内完成。
这些题目的参考代码长度大约在5行左右，用以验证模型在处理基础编程任务方面的效率和准确性。
2. 中级难度:
题目在逻辑上稍显复杂，要求模型不仅要理解题目要求，还需设计实现逻辑。这可能涉及多步操作、多种情况判断以及边界条件处理。
参考代码的长度约为10行以内，这一级别的题目用以评估模型在面对中等复杂度问题时的编程设计能力和问题解决策略。
3. 高级难度:
这一级别的题目难度较高，要求模型深入理解题目背后的复杂逻辑，并进行精细的逻辑设计。可能包括算法设计或解决具有一定难度的数学问题。
完成这些任务通常需要超过15行的代码。高级难度题目是对模型在高级编程技巧、算法理解和复杂问题解决能力的终极测试。


测评结果
SuperCLUE-Code3代码排行榜（2024年2月）



序号
模型
使用
难度等级
加权得分
非加权
得分
指令
遵循率




1
GPT-4-0125-preview
API
68.00
78.97
100.00


2
GPT-4
API
63.74
77.44
100.00


3
GPT-3.5-Turbo-0125
API
55.51
69.23
85.13


4
deepseek-coder-6.7b
模型
47.78
55.38
57.95


5
Gemini 1.0 Pro
API
46.50
56.92
0.00


6
XVERSE-13B-2-Chat
模型
30.53
43.08
75.90


7
Qwen-14b-Chat
模型
24.67
37.95
85.13


8
Code-Llama-13b-instruct
模型
21.11
34.36
1.03


9
ChatGLM3-6B-Chat
模型
15.29
22.56
91.79


10
Baichuan2-13B-Chat
模型
13.89
26.09
94.36


11
Llama2-13b-Chat
模型
6.06
13.33
94.36



说明：使用方式为模型时的解码方式统一为：greedy；指令遵循率，为模型是否遵循了规定的格式来输出最终答案。
deepseek-coder-6.7b具体指deepseek-coder-6.7b-instruct

SuperCLUE-Code3难度等级得分榜（2024年2月）



序号
模型
使用
难度等级
加权得分
初级
难度
中级
难度
高级
难度




1
GPT-4-0125-preview
API
68.00
88.89
80.60
52.63


2
GPT-4
API
63.74
90.00
79.10
44.74


3
GPT-3.5-Turbo-0125
API
55.51
82.22
70.15
36.84


4
deepseek-coder-6.7b
模型
47.78
67.78
46.27
42.11


5
Gemini 1.0 Pro
API
46.50
68.89
53.73
34.21


6
XVERSE-13B-2-Chat
模型
30.53
63.33
28.36
21.05


7
Qwen-14b-Chat
模型
24.67
57.78
25.37
13.16


8
Code-Llama-13b-instruct
模型
21.11
52.22
25.37
7.89


9
ChatGLM3-6B-Chat
模型
15.29
32.22
17.91
7.89


10
Baichuan2-13B-Chat
模型
13.89
43.53
15.62
2.86


11
Llama2-13b-Chat
模型
6.06
24.44
5.97
0.00




结论及分析
国际代表性大模型在SC-Code3功能性单元测试中整体表现优于国内中小型模型，特别在高级难度的任务上展现出较强的编码能力；

此外，指令遵循率普遍较高，表明各模型较好地理解并执行了给定任务。

分析结论：
1. 国际大模型表现突出：
GPT-4-0125-preview作为国际大模型，在加权得分上达到68.00，非加权得分为78.97，明显高于其他模型。
尤其是在高级难度得分上达到52.63，表明其对复杂问题的处理能力强。
2. 初级难度得分普遍较高：
所有模型在初级难度得分上的表现普遍不错，例如GPT-4-0125-preview在初级难度得分为88.89，这表明大部分模型能够较好地处理基础编程任务。
3. 国内小模型在中等难度上有潜力：
deepseek_coder6.7B_greedy作为国内小模型，在中级难度得分上达到46.27，接近一些国际大模型如Gemini 1.0 Pro的53.73，
显示出国内模型在特定级别的任务上具有竞争力。
4. 高级难度是分水岭：
高级难度的得分在各模型间表现出较大差异，国际大模型如GPT-4的得分为44.74，而国内小模型如XVERSE-13B-2-Chat仅为21.05，
说明在处理更复杂的编码问题时，大模型的优势更加明显。
5. 部分国际模型中文代码能力表现不足：
以Code-Llama-13b-instruct为例，它的加权得分仅为21.11，远低于国际大模型GPT-4系列的平均得分超过60，
deepseek-coder-6.7b-instruct的48分。尤其在高级难度得分上，Code Llama 13B只有7.89分，
这与它在初级难度得分（52.22分）的良好表现形成鲜明对比，表明其在处理更复杂中文代码任务时效果有限。
这可能是因为这些模型在训练时没有针对中文编程语境进行充分的优化，或者是因为国内模型在理解中文编程语境方面有天然的优势。
因此，我们不能仅仅根据模型的国际声誉来评估其在特定任务上的有效性。
6. 指令遵循率高，但仍有改进空间：
尽管指令遵循率普遍高于85%，如GPT-4系列模型均达到了100%，但仍有部分国际模型如Gemini 1.0 Pro和
Code-Llama-13b-instruct的在中文使用场景的指令遵循率小于10%，
表明在中文理解和遵循指令方面，上仍有提升的空间。
需要注意的是，我们本次测试了一批国际上代表性的模型，包含了较大参数的模型，而国内模型测试中本次主要是针对参数量较小的模型，后续将添加更多模型。

六、如何申请应用及联系方式？



加入交流群或添加微信交流。现征集代码大模型测评，有意愿参与代码测评的厂商可发送邮件至contact@superclue.ai，标题：SuperCLUE-Code3测评集
讨论交流与使用



  微信群：
  
  联系人：

序号	对比项目	SuperCLUE-Code3	HumanEval
1	代码功能性单元测试	YES	YES
2	自然语言描述并包含示例	YES	YES
3	Python测试语言	YES	YES
5	中文原生场景	YES	NO
6	题目类型多样化	YES	NO
7	按难度等级评估能力	YES	NO
9	题目数量	195题（1560个测试用例）	164题（1263测试用例）
9	平均测试用例	8个	7.7个

序号	模型	使用	难度等级加权得分	非加权得分	指令遵循率
1	GPT-4-0125-preview	API	68.00	78.97	100.00
2	GPT-4	API	63.74	77.44	100.00
3	GPT-3.5-Turbo-0125	API	55.51	69.23	85.13
4	deepseek-coder-6.7b	模型	47.78	55.38	57.95
5	Gemini 1.0 Pro	API	46.50	56.92	0.00
6	XVERSE-13B-2-Chat	模型	30.53	43.08	75.90
7	Qwen-14b-Chat	模型	24.67	37.95	85.13
8	Code-Llama-13b-instruct	模型	21.11	34.36	1.03
9	ChatGLM3-6B-Chat	模型	15.29	22.56	91.79
10	Baichuan2-13B-Chat	模型	13.89	26.09	94.36
11	Llama2-13b-Chat	模型	6.06	13.33	94.36

序号	模型	使用	难度等级加权得分	初级难度	中级难度	高级难度
1	GPT-4-0125-preview	API	68.00	88.89	80.60	52.63
2	GPT-4	API	63.74	90.00	79.10	44.74
3	GPT-3.5-Turbo-0125	API	55.51	82.22	70.15	36.84
4	deepseek-coder-6.7b	模型	47.78	67.78	46.27	42.11
5	Gemini 1.0 Pro	API	46.50	68.89	53.73	34.21
6	XVERSE-13B-2-Chat	模型	30.53	63.33	28.36	21.05
7	Qwen-14b-Chat	模型	24.67	57.78	25.37	13.16
8	Code-Llama-13b-instruct	模型	21.11	52.22	25.37	7.89
9	ChatGLM3-6B-Chat	模型	15.29	32.22	17.91	7.89
10	Baichuan2-13B-Chat	模型	13.89	43.53	15.62	2.86
11	Llama2-13b-Chat	模型	6.06	24.44	5.97	0.00




            

             
                SuperCLUE中文大模型排行榜(2023年7月)



                总榜单，包括基础能力、中文特性和专业能力

                 


    
    
    













排名
模型
机构
总分
基础能力
中文特性
学术专业
许可证




🧝
人类
CLUE
83.66
85.03
82.29
-
-




-
GPT-4
OpenAI
70.89
70.04
72.67
69.96
专有服务




🏅
文心一言(v2.2.0) 
百度
62.00
61.11
71.38
53.50
专有服务




-
Claude-2 
Authropic
60.94
62.01
61.18
59.63
专有服务




-
gpt-3.5-turbo
OpenAI
59.79
64.40
63.19
51.78
专有服务




🥈
ChatGLM-130B
清华大学&智谱AI
59.35
53.78
71.39
52.89
专有服务




🥉
讯飞星火(v1.5)
科大讯飞
58.02
63.32
65.72
45.03
专有服务




-
Claude-instant-v1
Authropic
56.31
58.85
55.91
54.16
专有服务




4
360智脑(4.0)
360
55.04
56.68
62.54
45.88
专有服务




5
internlm-chat-7b
上海AI实验室与商汤
53.91
54.85
61.35
45.53
开源-可商用




6
ChatGLM2-6B
清华大学&智谱AI
53.85
55.60
63.59
42.37
开源-可商用




7
MiniMax-abab5.5
MiniMax
53.06
53.61
62.79
42.77
专有服务




8
通义千问(v1.0.3)
阿里巴巴
51.52
52.84
61.73
39.98
专有服务




9
Baichuan-13B-Chat
百川智能
49.35
50.46
55.38
42.21
开源-可商用

  10  BELLE-LLaMA-13B-2M-enc  链家  46.60  48.71  52.99  38.10  开源-非商用  
  11  IDEA-姜子牙-13B-v1.1  深圳IDEA研究院  43.80  47.55  48.61  35.26  开源-非商用  
  12  phoenix-7B  香港中文大学  41.57  45.39  44.62  34.70  开源-可商用  
  13  MOSS-16B  复旦大学  35.36  37.01  38.01  31.07  开源-可商用  
  14  Llama-2-13B-chat  Meta  34.26  35.85  37.37  29.57  开源-可商用  
  15  Vicuna-13B  UC伯克利  31.70  34.61  33.71  26.80  开源-非商用  
  16  RWKV-7B-World-CHNtuned  RWKV基金会  27.83  30.71  28.13  24.66  开源-可商用  
 
注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名。


           

            
            
                2023年7月SuperCLUE基础能力榜单


                基础能力，包含10项子能力
                











排名
模型
平均分
语义理解
闲聊
对话
角色扮演
知识与百科
生成与创作
逻辑与推理
代码
计算
安全



🧝
人类
85.03
90.17
71.53
77.99
82.19
97.44
68.79
90.55
90.45
94.97
86.22



-
gpt-4
70.04
82.91
46.77
66.39
63.46
92.65
66.67
60.33
85.45
61.48
73.02



-
gpt-3.5-turbo
64.40
87.18
45.16
65.57
60.58
85.29
72.36
42.98
72.73
38.52
72.22



🏅️
讯飞星火(v1.5)
63.32
78.26
45.90
59.84
55.88
73.48
54.92
54.70
60.00
76.86
71.54



-
Claude-2
62.01
83.49
49.59
57.14
52.88
78.68
68.07
53.72
66.06
44.26
65.60



🥈
文心一言(v2.2.0)
61.11
81.90
46.34
56.67
59.80
86.76
47.73
36.52
65.79
52.63
70.63



-
Claude-instant-v1
58.85
76.52
50.00
58.20
55.77
77.04
61.48
40.00
66.97
33.61
67.77



🥉
360智脑(4.0)
56.68
76.92
52.46
58.33
54.08
76.80
61.54
37.29
53.64
29.57
67.92



4
ChatGLM2-6B
55.60
74.36
44.35
55.74
56.73
76.47
51.22
40.50
41.82
45.08
66.67



5
internlm-chat-7b
54.85
80.34
48.39
55.74
55.77
77.94
36.59
37.19
51.82
34.43
68.25



6
ChatGLM-130B
53.78
70.94
45.97
56.56
61.54
75.74
55.28
29.75
45.45
31.15
63.49



7
MiniMax-abab5.5
53.61
79.49
45.97
59.84
60.58
85.29
47.97
29.75
30.00
31.97
61.11



8
通义千问
52.84
74.77
45.97
57.98
53.00
76.69
38.89
33.06
46.67
39.67
60.40



9
Baichuan-13B-Chat
50.46
64.10
41.94
50.00
52.88
75.00
57.72
27.27
40.91
31.15
60.32



10
BELLE-13B
48.71
68.38
46.77
51.64
53.85
64.71
25.20
32.23
48.18
31.97
63.49



11
IDEA-姜子牙-13B-v1.1
47.55
70.09
49.19
48.36
48.08
58.82
32.52
34.71
21.82
45.08
63.49



12
Phoenix-7B
45.39
66.67
41.94
43.44
43.27
55.15
44.72
31.41
36.36
33.61
55.56



13
MOSS-16B
37.01
54.70
39.52
40.16
45.19
35.29
34.96
24.79
32.73
27.05
37.30



14
Llama-2-13B-chat
35.85
52.14
41.94
40.98
32.69
33.82
38.21
28.93
23.64
27.05
38.10



15
Vicuna-13B
34.61
49.57
33.06
32.79
37.50
25.74
30.89
27.27
40.91
35.25
35.71



16
RWKV-7B-World-CHNtuned
30.71
31.62
20.16
22.13
26.92
27.21
23.58
22.31
36.36
60.66
36.51



注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名



            
             
                2023年7月SuperCLUE中文特性榜单


                  中文特性，包含10项子能力
                 
                 



排名
模型
平均分
字形和拼音
字义理解
句法分析
文学
诗词
成语
歇后语
方言
对联
古文



🧝
人类
82.29
96.01
83.15
62.71
91.47
90.79
92.38
83.78
69.21
70.00
83.40



-
gpt-4
72.67
62.83
68.07
85.48
88.08
75.68
95.12
70.15
38.40
71.52
67.31



🏅️
ChatGLM-130B
71.39
48.67
68.07
75.00
83.44
84.68
95.94
67.16
45.60
70.86
72.12



🥈
文心一言(v2.2.0)
71.38
59.34
70.34
73.33
86.58
82.88
95.12
60.31
37.60
71.03
73.79



🥉
讯飞星火(v1.5)
65.72
47.32
68.38
77.42
72.03
69.09
89.43
59.85
35.77
71.23
63.46



4
ChatGLM2-6B
63.59
45.13
60.50
66.13
78.81
63.06
89.43
64.18
33.60
64.24
66.35



-
gpt-3.5-turbo
63.19
46.02
69.75
75.81
75.50
57.66
89.43
55.97
36.00
57.62
66.35



5
MiniMax-abab5.5
62.79
46.90
57.98
63.71
75.50
71.17
86.99
60.45
41.60
58.94
62.50



6
360智脑(4.0)
62.54
45.45
63.83
63.53
71.43
70.73
97.06
60.47
38.46
64.96
73.21



7
通义千问
61.73
41.59
60.87
60.66
73.65
67.89
88.24
51.91
40.68
68.97
57.89



8
internlm-chat-7b
61.35
41.59
58.82
62.10
76.16
68.47
86.18
61.94
32.80
57.62
65.38



-
Claude-2
61.18
48.67
70.94
70.16
67.55
54.05
83.74
58.21
36.00
60.67
59.62



-
Claude-instant-v1
55.91
43.36
62.16
72.13
62.91
50.91
84.87
47.73
31.20
56.38
45.19



9
Baichuan-13B-Chat  55.38  45.13  58.82  50.81  73.51  70.27  75.61  47.01  33.60  44.37  54.81  
  10  BELLE-13B  52.99  42.48  55.46  67.74  56.29  46.85  78.05  38.06  33.60  59.60  49.04  
  11  IDEA-姜子牙-13B-v1.1  48.61  28.32  54.62  51.61  56.29  51.35  63.41  42.54  36.00  48.34  51.92  
  12  Phoenix-7B  44.62  30.09  51.26  43.55  51.66  45.95  65.85  35.07  32.00  45.03  44.23  
  13  MOSS-16  38.01  32.74  43.70  36.29  40.40  32.43  60.98  32.09  31.20  31.13  40.38  
  14  Llama-2-13B-chat  37.37  31.86  40.34  49.19  37.75  33.33  43.90  32.09  32.00  33.77  40.38  
  15  Vicuna-13B  33.71  21.24  34.45  45.16  29.14  22.52  33.33  36.57  22.40  49.67  38.46  
  16  RWKV-7B-World-CHNtuned  28.13  25.66  26.05  25.00  29.80  26.13  45.53  17.16  20.00  36.42  27.88  
 
注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名；歇后语：歇后语和谚语


            
             
                2023年7月SuperCLUE开源榜单
                 



  
    排名
    模型
    机构
    总分
    基础能力
    中文特性
    学术专业
    许可证
  

  
    🧝
    人类
    CLUE
    83.66
    85.03
    82.29
    -
    -
  

  
    🏅️
    internlm-chat-7b
    上海AI实验室与商汤
    53.91
    54.85
    61.35
    45.53
    开源-可商用
  

  
    🥈
    ChatGLM2-6B
    清华大学&智谱AI
    53.85
    55.60
    63.59
    42.37
    开源-可商用
  

  
    🥉
    Baichuan-13B-Chat
    百川智能
    49.35
    50.46
    55.38
    42.21
    开源-可商用
  

  
    4
    BELLE-LLaMA-13B-2M-enc
    链家
    46.60
    48.71
    52.99
    38.10
    开源-非商用
  

  
    5
    IDEA-姜子牙-13B-v1.1
    深圳IDEA研究院
    43.80
    47.55
    48.61
    35.26
    开源-非商用
  

  
    6
    phoenix-7B
    香港中文大学
    41.57
    45.39
    44.62
    34.70
    开源-可商用
  

  
    7
    MOSS-16B
    复旦大学
    35.36
    37.01
    38.01
    31.07
    开源-可商用
  

  
    8
    Llama-2-13B-chat
    Meta
    34.26
    35.85
    37.37
    29.57
    开源-可商用
  

  
    9
    Vicuna-13B
    UC伯克利
    31.70
    34.61
    33.71
    26.80
    开源-非商用
  

  
    10
    RWKV-7B-World-CHNtuned
    RWKV基金会
    27.83
    30.71
    28.13
    24.66
    开源-可商用

排名	模型	机构	总分	基础能力	中文特性	学术专业	许可证
🧝	人类	CLUE	83.66	85.03	82.29	-	-
-	GPT-4	OpenAI	70.89	70.04	72.67	69.96	专有服务
🏅	文心一言(v2.2.0)	百度	62.00	61.11	71.38	53.50	专有服务
-	Claude-2	Authropic	60.94	62.01	61.18	59.63	专有服务
-	gpt-3.5-turbo	OpenAI	59.79	64.40	63.19	51.78	专有服务
🥈	ChatGLM-130B	清华大学&智谱AI	59.35	53.78	71.39	52.89	专有服务
🥉	讯飞星火(v1.5)	科大讯飞	58.02	63.32	65.72	45.03	专有服务
-	Claude-instant-v1	Authropic	56.31	58.85	55.91	54.16	专有服务
4	360智脑(4.0)	360	55.04	56.68	62.54	45.88	专有服务
5	internlm-chat-7b	上海AI实验室与商汤	53.91	54.85	61.35	45.53	开源-可商用
6	ChatGLM2-6B	清华大学&智谱AI	53.85	55.60	63.59	42.37	开源-可商用
7	MiniMax-abab5.5	MiniMax	53.06	53.61	62.79	42.77	专有服务
8	通义千问(v1.0.3)	阿里巴巴	51.52	52.84	61.73	39.98	专有服务
9	Baichuan-13B-Chat	百川智能	49.35	50.46	55.38	42.21	开源-可商用
10	BELLE-LLaMA-13B-2M-enc	链家	46.60	48.71	52.99	38.10	开源-非商用
11	IDEA-姜子牙-13B-v1.1	深圳IDEA研究院	43.80	47.55	48.61	35.26	开源-非商用
12	phoenix-7B	香港中文大学	41.57	45.39	44.62	34.70	开源-可商用
13	MOSS-16B	复旦大学	35.36	37.01	38.01	31.07	开源-可商用
14	Llama-2-13B-chat	Meta	34.26	35.85	37.37	29.57	开源-可商用
15	Vicuna-13B	UC伯克利	31.70	34.61	33.71	26.80	开源-非商用
16	RWKV-7B-World-CHNtuned	RWKV基金会	27.83	30.71	28.13	24.66	开源-可商用