开源大模型发展汇总

原创

已于 2023-07-14 18:02:06 修改 · 2.3k 阅读

标签

#nlp #chatgpt #gpt-3 #语言模型 #自然语言处理

于 2023-07-14 14:51:24 首次发布

文章概述了大模型的发展，特别是中文大模型的现状，包括LLaMA、ChatGLM和百川等开源项目。这些模型在不同场景下表现出色，如法律、医疗和金融领域。微调模型如Alpaca和ChatGLM的性能提升被强调，同时提到训练成本和资源需求。此外，文章还提到了AI代理层的发展和量子计算对算力的潜在影响。

1. 大模型发展&概况

a. 发展线路图

其中基础模型如下：

大部分不开源，而OPT、BLOOM、LLaMA 三个模型是主要面向开源促进研究，聊天机器人场景开源的Open Assistant（huggingface）
中文有一些GLM，百川，MOSS，伶荔 (Linly)等

指令微调模型如下：

微调模型依赖关系：

b. 中文相关大模型

6月 SuperCLUE 中文大模型总排行榜

6月SuperCLUE基础能力榜单

6月SuperCLUE-70亿参数量级榜单

ps：

7.11 百川发布13B模型，超过ChatGLM 130B非开源模型

7.11 Claude2发布，个人通过app和pc免费提供，商用 API 收费。超过chatgpt3.5-turbo。与gpt4比各有优势。价格远低于ChatGPT

c. 支持中文的通用大模型概况

LLaMA

meta 开源

作者在20个benchmarks上验证了Zero-shot和Few-shot的效果。从效果上看上是非常不错的，似乎证明了训练数据的规模可以弥补模型规模的不足。

基于公开数据集

小参数媲美大参数模型

130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3，而且可以在单块 V100 GPU 上运行；而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B

训练：？

运行：1*V100

ChatGLM（清华+智普ai）6B开源

对话模型,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。

ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型，但大大降低了推理成本，提升了效率，并且已经能

最低0.47元/天解锁文章