https://github.com/NetEase-FuXi/EET
网易伏羲文本预训练模型,百亿参数
10B
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
http://ex.chinadaily.com.cn/exchange/partners/82/rss/channel/cn/columns/snl9a7/stories/WS628df605a3101c3ee7ad730e.html
混元AI大模型团队依托公司领先的太极机器学习平台,推出了HunYuan-NLP 1T大模型。先后在热启动和课程学习、MOE路由算法、模型结构、训练加速等方面研究优化,大幅降低了万亿大模型的训练成本,用千亿模型热启动,最快仅用256卡在一天内即可完成万亿参数大模型HunYuan-NLP 1T的训练。
1T
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/alibaba/AliceMind
通义-AliceMind
480M
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/CLUEbenchmark/CLUE
人类测评的得分
-
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://ailab.oppoer.me/ServiceDetail/asr
中文预训练模型CHAOS(Chinese Hierarchical Language Model Systems for Knowledge Transforming),基于Encoder-Decoder的框架,使用了490GB高质量语料,范围包含百科、社区问答、新闻、娱乐、历史等。
3 Billions
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
github.com/meituan
文津预训练模型,encoder-decoder结构,百亿参数
10B
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://m.ofweek.com/ai/2022-07/ART-201700-8210-30566522.html
OBERT百亿模型,多任务预训练。
10b
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/Tencent
HunYuan_nlp,是混元AI大模型中的NLP 10b参数量级模型,由腾讯TEG主导,通过开源协同腾讯广告技术力量所研发的超大规模预训练模型。使用TB级高质量多领域文本数据,配合模型结构及训练策略的相关优化训练得到。
10b
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://mp.weixin.qq.com/s/CavGiy1Rz0MJVtcxXdSn0A
联合团队致力于将知识融入预训练模型,进而充分发挥已有参数下的模型潜力。模型结构方面,“神农”基于 Transformer 架构,仅包含十亿级的参数量。从数据量来看,“神农”以数百 GB 级的平文本做基石,涵盖百科、论坛博客、新闻、财经等众多领域的高质量文本。
基于知识的预训练模型
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://mp.weixin.qq.com/s/PODShmOo0tg9cmchNhzvtw
自研神舟预训练大模型;百亿级别参数量,2TB 高价值数据(ensemble)
10B
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/MooreThreads
摩尔线程自研PTM,千G语料,多种上下游任务优化
340M
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/CLUEbenchmark/CLUE
3mp v1 xxlarge
630M
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
vivo-3MP
vivo-3MP
vivo-3MP
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-DeBERTa-v2-1.4B-Chinese
UniMC-DeBERTa-1.4B 是中文 DeBERTa 版的 UniMC,使用 180g 的无监督语料进行 MaskLM 的预训练,再通过 48 份有监督的数据进行预训练。使得 UniMC-DeBERTa-1.4B 和其他 UniMC 模型一样可以拥有很强的 Few/Zero-shot 性能。同时也保持 DeBERTa 在全量数据下优秀的 Finetuning 性能
14亿
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/CLUEbenchmark/CLUE
CL-BERT
2B
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/wjn1996
Powered by Jianing Wang. BERT model baseline
1.3B模型
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://langboat.com/
孟子预训练模型;1B级别参数量;数百G高质量语料(互联网网页、社区、新闻、电子商务、金融等)。基于transformer的denoising 预训练模型。
1B数量级
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/CLUEbenchmark
摩尔线程自研PTM,千G语料,多种上下游任务优化
340M
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/CLUEbenchmark/CLUE
3mp-T base v2
88M
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |
https://github.com/CLUEbenchmark/CLUE
3mp v1 large
280M
| C | E | N |
---|
C | 0.0 | 0.0 | 0.0 |
E | 0.0 | 0.0 | 0.0 |
N | 0.0 | 0.0 | 0.0 |