开源大模型发展汇总

文章概述了大模型的发展,特别是中文大模型的现状,包括LLaMA、ChatGLM和百川等开源项目。这些模型在不同场景下表现出色,如法律、医疗和金融领域。微调模型如Alpaca和ChatGLM的性能提升被强调,同时提到训练成本和资源需求。此外,文章还提到了AI代理层的发展和量子计算对算力的潜在影响。

1. 大模型发展&概况

a. 发展线路图

其中基础模型如下:

  • 大部分不开源,而OPT、BLOOM、LLaMA 三个模型是主要面向开源促进研究,聊天机器人场景开源的Open Assistant(huggingface)
  • 中文有一些GLM,百川,MOSS,伶荔 (Linly)
指令微调模型如下

微调模型依赖关系


b. 中文相关大模型

6月 SuperCLUE 中文大模型总排行榜

6月SuperCLUE基础能力榜单

6月SuperCLUE-70亿参数量级榜单

ps:

7.11 百川发布13B模型,超过ChatGLM 130B非开源模型

7.11 Claude2发布,个人通过app和pc免费提供,商用 API 收费。超过chatgpt3.5-turbo。与gpt4比各有优势。价格远低于ChatGPT


c. 支持中文的通用大模型概况

LLaMA

meta 开源

作者在20个benchmarks上验证了Zero-shot和Few-shot的效果。从效果上看上是非常不错的,似乎证明了训练数据的规模可以弥补模型规模的不足。

基于公开数据集

小参数媲美大参数模型

130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B

  • 训练:?
  • 运行:1*V100
ChatGLM(清华+智普ai)6B开源

对话模型,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。

ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值