<
扫码关注
公众号二维码

中文语言理解测评基准(CLUE)

内容体系:代表性的数据集、基线(预训练)模型、语料库、论文、工具包、排行榜。

定位:为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文NLP的发展。


                                       更新24年4月1日:
SuperCLUE-200K: 超长文本无损能力压测!中文大模型“大海捞针”首批结果公布
                                       更新24年4月2日: SuperCLUE-Role: 重新定义中文角色大模型测评基准
                                       更新24年2月28日: 中文大模型基准测评2024年2月报告
                                       更新24年3月11日: SuperCLUE-RAG: 中文原生检索增强生成测评基准
                                       更新24年3月4日: SuperCLUE-Industry: 中文原生工业大模型测评基准
                                       更新24年2月26日: SuperCLUE-Video: 中文原生多层次文生视频测评基准
                                       更新23年2月21日: SuperCLUE-Code3: 中文原生端到端等级化代码能力测试基准
                                       更新24年1月15日: SuperCLUE-Math6: 新一代中文原生多轮多步数学推理数据集
                                       更新23年12月25日: SuperCLUE-Auto即首个汽车行业中文大模型测评基准发布
                                       更新23年11月28日: 《中文大模型测评报告,2023》发布
                                       更新23年11月30日: 11月中文大模型测评基准榜单发布
                                       更新23年11月14日: SuperCLUE2行业测评基准即将发布,正在征集行业大模型!
                                       更新23年11月09日: GPT-4 Turbo中文基准评测出炉!总分98.4,八项满分,领先31分|SuperCLUE
                                       更新23年10月18日: SuperCLUE-Agent发布!中文原生场景Agent能力测评基准
                                       更新23年09月12日: 为大模型安全护航!中文大模型多轮对抗安全基准SC-Safety发布
Copyright @2019 - 2023