零一万物Yi大模型vllm推理时Yi-34B或Yi-6bchat重复输出的解决方案

原创

已于 2024-03-02 11:33:06 修改 · 3.5k 阅读

标签

#机器学习 #人工智能 #自然语言处理 #nlp

收录于

于 2024-02-04 16:44:56 首次发布

在使用yi-34B进行问答的时候，出现了模型重复输出内容的情况，如下图所示。

上图系群友【悟】提供。

几天之后，又有群友反馈出现了这个情况。

破案了同志们，用vllm直接推理yi模型确实会重复刷屏，但是用官方给的web_demo推理是没问题的。

使用vllm推理yi模型的时候，发送消息中需要加入"stop_token_ids": [7]，就可以解决重复刷屏的问题。
例如：

import asyncio
from vllm import AsyncEngineArgs, AsyncLLMEngine, SamplingParams

engine = AsyncLLMEngine.from_engine_args(AsyncEngineArgs("01-ai/Yi-6B-Chat"))
param = SamplingParams(max_tokens=50,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

siynb_725g87gb

关注关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

【深度学习】使用vLLM作推理加速

Dong_ZH的博客

03-11

1499

将微调后的模型部署到线上后，需要用到模型的推理加速，记录使用vLLM的推理加速流程。

3 条评论您还未登录，请先登录后发表或查看评论

vllm 加速模型推理报错

QiwzDeBLOG的博客

04-16

4697

使用VLLM加速大模型推理报错

vLLM-v0.17.1入门必看：vLLM Engine与AsyncLLMEngine核心区别解析

最新发布

weixin_36074800的博客

03-27

372

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像，解析其核心引擎vLLM Engine与AsyncLLMEngine的关键区别。该镜像专为大语言模型推理优化，特别适合构建高并发的AI聊天服务，通过异步处理实现流式响应，显著提升在线服务的吞吐量和响应速度。

vLLM - LLMEngine

weixin_42654107的博客

09-14

773

LLMEngine是vLLM的核心，它接收输入，通过语言模型生成输出，并将结果返回给客户端。离线批量推理的LLM，在线服务的AsyncLLMEngine都通过封装LLMEngine对外提供推理服务。LLMEngine有v0和v1两个版本的实现，目前主流是使用的v1版本，源代码位于：vllm/vllm/v1/engine/llm_engine.py。

qwen大语言模型基于vllm部署

weixin_41687218的博客

11-26

4854

将上述代码按顺序组合在一个py文件中。

5种搭建LLM服务的方法和代码示例

deephub

04-22

5519

当涉及到服务大型语言模型(llm)时，有各种各样的方法可以选择：对喜欢本地服务器设置的人来说，使用带有CPU的Anaconda提供了较低的进入门槛，gpu加速的Anaconda环境可以缓解延迟问题，但它仍然面临可伸缩性和对本地资源的依赖方面的限制，特别是在处理大型llm时。Docker可以简化Python环境配置，可以适应大批量的部署。Modal提供了一种更灵活的按次付费计算解决方案，使其具有成本效益和易于设置的吸引力AnyScale提供了较低的进入门槛对于那些追求简单的人来说是一个非常好的选择。

Falcon 7B与LangChain：构建具备对话记忆的智能聊天机器人

FrenzyTechAI的博客

08-07

1113

本文我们将介绍使用Falcon 7B和LangChain来构建一个保留对话记忆的聊天机器人。通过利用单个 T4 GPU 并以8bit（约6个token/秒）的速度加载模型，以达到不错的模型性能效果。首先，我们将介绍模型停止准则。通过检测LLM开始"胡言乱语"的时候，并停止生成，我们可以避免生成无意义或混乱的回复。这样可以提高聊天机器人的可读性和可理解性。其次，我们将讨论清理输出的方法。有时候，LLMs会输出奇怪或多余的标记，这可能会影响到对话的连贯性和准确性。

Qwen2.5 VL 使用停止序列

二分掌柜的

05-25

1604

flyfish

LLM 推理优化

StackFlow的博客

03-10

7264

数据并行是一种将大型数据集分割成小块，然后在多个GPU上并行处理的技术。每个GPU处理数据的一个子集，并独立地执行相同的模型计算。最后，将所有GPU的结果汇总以得到最终输出。

【AI实战】大模型 LLM 部署推理框架的 vLLM 应用

Zack的博客

07-18

1万+

大模型 LLM 推理框架的 vLLM 应用

VLLM推理流程梳理

热门推荐

I good vegetable a!

08-14

2万+

本文在对VLLM进行解析时只关注单卡情况，忽略基于ray做分布式推理的所有代码。先从使用VLLM调用opt-125M模型进行推理的脚本看起：可以看到这里创建了一个LLM对象，然后调用了LLM对象的函数。这就是vllm的入口点，接下来我们对LLM这个类的generaet过程进行解析。首先看一下LLM类的初始化函数：可以看到LLM类似于对LLMEngine进行了封装，一个LLM对象对应了一个LLMEngine对象。接下来我们解析一下和，首先来看：接下来对进行解析：从的定义可以知道，它做了初始化token

图解大模型计算加速系列：vLLM源码解析1，整体架构

强化学习曾小健

07-12

3622

图中左侧是用户使用界面，罗列了上述所说的两种调用方式（注意，如前文所说，做demo用的api server官方已经不再维护了，openai_api_server才是官方推荐的使用方式，user custom server目前还没有实现）。右侧则是开发者界面，不难发现LLMEngine是vLLM的核心逻辑。：该方法将每一个请求包装成vLLM能处理的数据类型(SequenceGroup，后面我们会详细解释)，并将其加入调度器（Scheduler）的waiting队列中。

【大模型】使用Vllm加载AWQ量化模型

Dong_ZH的博客

02-27

744

【代码】【大模型】使用Vllm加载AWQ量化模型。

NLP实践——LLM生成过程中防止重复循环

weixin_44826203的博客

11-23

9451

本文介绍如何使用LogitsProcessor避免大模型在生成过程中出现重复的问题。

【大模型LLM第十二篇】模型部署框架之vLLM模型服务部署实战讲解

AI蜗牛车

10-10

5463

前言vLLM是用于LLM推理和服务的工具库。vllm由以下几点突出的“快”：最先进的服务吞吐量PagedAttention连续批处理传入请求快速模型执行以CUDA/HIP graph量化:GPTQ, AWQ, SqueezeLLM, FP8 KV缓存优化CUDA内核文档和代码：https://docs.vllm.ai/en/stable/https://github.com/vllm-projec...

大模型运行框架 VLLM 深度分析！

m0_59235945的博客

07-09

5572

VLLM 是伯克利大学 LMSYS 组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐量与内存使用效率。它通过创新的技术和优化策略，有效管理计算资源，为大语言模型的高效运行提供了强大支持。VLLM 利用全新的注意力算法「PagedAttention」，对注意力键和值进行高效管理，其核心理念在于通过优化内存管理和资源调度，提升大语言模型部署和执行的效率。

大模型推理框架 vLLM 源码解析（一）

强化学习曾小健

02-05

4900

原创 marsggbo。

vLLM 实战

LF_AI的博客

08-28

3044

引言随着人工智能技术的飞速发展，以及今年以来 ChatGPT 的爆火，大语言模型 (Large Language Model, LLM) 受到越来越多的关注。为了实现 LLM 部署时的推理优化，全球各地有众多团队做出了各种优化框架。本文以加州大学伯克利分校开发的 vLLM 框架为例，进行实战探索。1. 整体介绍根据公开文档中的实验结果， vLLM 吞吐量比 Hugging Face Transfo...

LLM 大模型学习必知必会系列(一)：VLLM性能飞跃部署实践：从推理加速到高效部署的全方位优化

强化学习曾小健

08-03

2524

do_sample：布尔类型。是否使用随机采样方式运行推理，如果设置为False，则使用beam_search方式temperature：大于等于零的浮点数。公式为：从公式可以看出，如果T取值为0，则效果类似argmax，此时推理几乎没有随机性；取值为正无穷时接近于取平均。一般temperature取值介于[0, 1]之间。取值越高输出效果越随机。如果该问答只存在确定性答案，则T值设置为0。反之设置为大于0。top_k：大于0的正整数。从k个概率最大的结果中进行采样。

VLLM+qwen批量推理重复输出的问题

qq_40684500的博客

05-28

2060

但是请注意，qwen系列模型在进行对话生成，批量推理时，对输入格式有明确的规范。它需要输入遵循特定的。