AI的回答为什么是一个字一个字出来的?
而不是一整篇出来 控制一下,让人觉得它真的是很辛苦,在努力工作中。 因为慢部署过deepseek就知道,推理过程是真的慢 bigluo 发表于 2025-2-20 17:10
控制一下,让人觉得它真的是很辛苦,在努力工作中。
说得你有 10 万美刀的老黄显卡一样,可以让 Ai 一下子蹦一大片文字 ;P 这也是为什么绝大多数AI直接输出结果,输出里省略冗长的推理过程。
也是为什么从年前到年后都是服务器忙,请下次再光临。
老衲心爱的gtx1050,装14B数据库,每分钟只能输出十几个字。
JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道,推理过程是真的慢
DS 推理过程更慢一些,不过楼主可能意思是,推理完了生成的时候应该一下子生成一大篇文章 :lol 但实际上这个速度也是有限的,说到底还是算力问题,算力不足
那是故意的,就像股市,在电脑上改个数字而已,那么辛苦。 bigluo 发表于 2025-2-20 17:10
控制一下,让人觉得它真的是很辛苦,在努力工作中。
呈现一种效果 本帖最后由 ustone 于 2025-2-20 22:13 编辑
JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道,推理过程是真的慢
比如答案有300字,推理出前30个字到后30个字需要那么久,那内容逻辑怎么连贯一体?
会不会类似多线程的效果,服务器时间分片,用来同时服务上万个用户,每个用户一次一个字,一万个用户轮流一遍再下一个字?
girlexplorer 发表于 2025-2-20 17:37
这也是为什么绝大多数AI直接输出结果,输出里省略冗长的推理过程。
也是为什么从年前到年后都是服务器忙 ...
跟服务器忙应该有关系 washu 发表于 2025-2-20 17:40
DS 推理过程更慢一些,不过楼主可能意思是,推理完了生成的时候应该一下子生成一大篇文章但实际上 ...
推理完了生成的时候应该一下子生成一大篇文章
——就是这个意思 emi 发表于 2025-2-20 20:39
那是故意的,就像股市,在电脑上改个数字而已,那么辛苦。
逐字动画效果 ustone 发表于 2025-2-20 21:54
比如答案有300字,推理出前30个字到后30个字需要那么久,那内容逻辑怎么连贯一体?
会不会类似多线程的效果,服务器时间分片,用来同时服务上万个用户,每个用户一次一个字,一万个用户轮流一遍再下一个字?
从数据包封装角度其实增加了流量(封装的开销) ...
1、有一个上下文限制,这个也是需要硬件开销的,如果很长不能保证连贯
2、你可以自己跑 LLM 体会是不是这样 :D 要跑完整的 DSR1 哪怕是残血版都不容易,但一些小模型,一般的电脑还是跑得起的,比如我在自己电脑(AMD 3600X,16G RAM,Quadro P2000/5G)上跑的 DSR1-14b,你可自己体会
washu 发表于 2025-2-20 22:06
1、有一个上下文限制,这个也是需要硬件开销的,如果很长不能保证连贯
2、你可以自己跑 LLM 体会是 ...
我觉得这些模型自己架设也是服务器版本的,不是单机版的,(输出)性能不是最优,可能有点关系。 ustone 发表于 2025-2-20 22:19
我觉得这些模型自己架设也是服务器版本的,不是单机版的,(输出)性能不是最优,可能有点关系。
就是你所谓的蛋鸡版,也就是量化精度降低的意思 :D
C:\Users\washu>ollama show deepseek-r1:14b
Model
architecture qwen2
parameters 14.8B
context length 131072
embedding length 5120
quantization Q4_K_M
Parameters
stop "<|begin▁of▁sentence|>"
stop "<|end▁of▁sentence|>"
stop "<|User|>"
stop "<|Assistant|>"
License
MIT License
Copyright (c) 2023 DeepSeek
从这里看,我跑的 DSR1-14b 不仅是 DSR1 的 14b 残血版,量化精度也降低到 INT4,而原始的 DSR1 是 671b,量化精度 F8 :Q