一、配置环境
1、打开colab,创建一个空白notebook,在[修改运行时环境]中选择15GB显存的T4 GPU.
2、pip安装依赖python包
!pip install --upgrade accelerate
!pip install bitsandbytes transformers_stream_generator
!pip install transformers
!pip install sentencepiece
!pip install torch
!pip install accelerate
注意此时,安装完accelerate后需要重启notebook,不然报如下错误:
ImportError: Using low_cpu_mem_usage=True or a device_map requires Accelerate: pip install accelerate
注:参考文章内容[1]不能直接运行
二、模型推理
运行加载模型代码
import accelerate
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
# 待加载的预模型
model_path = "LinkSoul/Chinese-Llama-2-7b-4bit"
# 分词器
tokenizer

本文详细指导如何在Colab上设置T4GPU环境,安装所需包,加载预训练的Llama模型进行文本生成,包括处理警告和演示实例。

949

被折叠的 条评论
为什么被折叠?



