1. 大模型发展&概况
a. 发展线路图

其中基础模型如下:

- 大部分不开源,而OPT、BLOOM、LLaMA 三个模型是主要面向开源促进研究,聊天机器人场景开源的Open Assistant(huggingface)
- 中文有一些GLM,百川,MOSS,伶荔 (Linly)等
指令微调模型如下:

微调模型依赖关系:

b. 中文相关大模型
6月 SuperCLUE 中文大模型总排行榜

6月SuperCLUE基础能力榜单

6月SuperCLUE-70亿参数量级榜单

ps:
7.11 百川发布13B模型,超过ChatGLM 130B非开源模型
7.11 Claude2发布,个人通过app和pc免费提供,商用 API 收费。超过chatgpt3.5-turbo。与gpt4比各有优势。价格远低于ChatGPT
c. 支持中文的通用大模型概况
LLaMA
meta 开源
作者在20个benchmarks上验证了Zero-shot和Few-shot的效果。从效果上看上是非常不错的,似乎证明了训练数据的规模可以弥补模型规模的不足。
基于公开数据集
小参数媲美大参数模型
130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B
- 训练:?
- 运行:1*V100
ChatGLM(清华+智普ai)6B开源
对话模型,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。
ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能

文章概述了大模型的发展,特别是中文大模型的现状,包括LLaMA、ChatGLM和百川等开源项目。这些模型在不同场景下表现出色,如法律、医疗和金融领域。微调模型如Alpaca和ChatGLM的性能提升被强调,同时提到训练成本和资源需求。此外,文章还提到了AI代理层的发展和量子计算对算力的潜在影响。

6276

被折叠的 条评论
为什么被折叠?



