大模型(LLM)推理框架汇总

MLC LLM


submodules in MLC LLM

大模型(LLM)好性能通用部署方案,陈天奇(tvm发起者)团队开发.

项目链接

docs: https://llm.mlc.ai/docs/

github: https://github.com/mlc-ai/mlc-llm

支持的平台和硬件

platforms & hardware

支持的模型

|
Architecture

|

Prebuilt Model Variants

|
| — | — |
|

Llama

|

Llama-2, Code Llama, Vicuna, WizardLM, WizardMath, OpenOrca Platypus2, FlagAlpha Llama-2 Chinese, georgesung Llama-2 Uncensored

|
|

GPT-NeoX

|

RedPajama

|
|

GPT-J

|
|
|

RWKV

|

RWKV-raven

|
|

MiniGPT

|
|
|

GPTBigCode

|

WizardCoder

|
|

ChatGLM

|
|
|

ChatGLM

|
|

接口API 支持

Javascript API, Rest API, C++ API, Python API, Swift API for iOS app, Java API & Android App

量化(Quantization) 方法支持

4-bit, LUT-GEMM, GPTQ

ref: https://llm.mlc.ai/docs/compilation/configure_quantization.html

其他

最大的特点是可以快速部署大模型到iOS 和 Android 设备上, 浏览器上运行文生图模型(sd1.5/2.1)和大模型, 推理框架基于tvm-unity.

vLLM


快速简单易用的大模型推理框架和服务,来自加州大学伯克利分校

vLLm 运行大模型非常快主要使用以下方法实现的:

  1. 先进的服务吞吐量

  2. 通过PageAttention 对attention key & value 内存进行有效的管理

  3. 对于输入请求的连续批处理

  4. 高度优化的CUDA kernels

项目链接

docs: Welcome to vLLM!

github: https://github.com/vllm-project/vllm

支持的平台和硬件

NVIDIA CUDA, AMD ROCm

支持的模型

vLLM seamlessly supports many Hugging Face models, including the following architectures:

  • Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)

  • Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B, etc.)

  • BLOOM (bigscience/bloom, bigscience/bloomz, etc.)

  • ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b, etc.)

  • Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b, etc.)

  • GPT-2 (gpt2, gpt2-xl, etc.)

  • GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, etc.)

  • GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.)

  • GPT-NeoX (EleutherAI/gpt-neox-20b, databricks/dolly-v2-12b, stabilityai/stablelm-tuned-alpha-7b, etc.)

  • InternLM (internlm/internlm-7b, internlm/internlm-chat-7b, etc.)

  • LLaMA & LLaMA-2 (meta-llama/Llama-2-70b-hf, lmsys/vicuna-13b-v1.3, young-geng/koala, openlm-research/open_llama_13b, etc.)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值