ustone 发表于 2025-2-20 17:00:25

AI的回答为什么是一个字一个字出来的?

而不是一整篇出来

bigluo 发表于 2025-2-20 17:10:47

控制一下,让人觉得它真的是很辛苦,在努力工作中。

JuncoJet 发表于 2025-2-20 17:17:35

因为慢
部署过deepseek就知道,推理过程是真的慢

washu 发表于 2025-2-20 17:35:29

bigluo 发表于 2025-2-20 17:10
控制一下,让人觉得它真的是很辛苦,在努力工作中。

说得你有 10 万美刀的老黄显卡一样,可以让 Ai 一下子蹦一大片文字 ;P

girlexplorer 发表于 2025-2-20 17:37:19

这也是为什么绝大多数AI直接输出结果,输出里省略冗长的推理过程。

也是为什么从年前到年后都是服务器忙,请下次再光临。

老衲心爱的gtx1050,装14B数据库,每分钟只能输出十几个字。




washu 发表于 2025-2-20 17:40:05

JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道,推理过程是真的慢

DS 推理过程更慢一些,不过楼主可能意思是,推理完了生成的时候应该一下子生成一大篇文章 :lol 但实际上这个速度也是有限的,说到底还是算力问题,算力不足

emi 发表于 2025-2-20 20:39:51

那是故意的,就像股市,在电脑上改个数字而已,那么辛苦。

ustone 发表于 2025-2-20 21:46:15

bigluo 发表于 2025-2-20 17:10
控制一下,让人觉得它真的是很辛苦,在努力工作中。

呈现一种效果

ustone 发表于 2025-2-20 21:54:00

本帖最后由 ustone 于 2025-2-20 22:13 编辑

JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道,推理过程是真的慢

比如答案有300字,推理出前30个字到后30个字需要那么久,那内容逻辑怎么连贯一体?
会不会类似多线程的效果,服务器时间分片,用来同时服务上万个用户,每个用户一次一个字,一万个用户轮流一遍再下一个字?

ustone 发表于 2025-2-20 21:56:33

girlexplorer 发表于 2025-2-20 17:37
这也是为什么绝大多数AI直接输出结果,输出里省略冗长的推理过程。

也是为什么从年前到年后都是服务器忙 ...

跟服务器忙应该有关系

ustone 发表于 2025-2-20 21:58:58

washu 发表于 2025-2-20 17:40
DS 推理过程更慢一些,不过楼主可能意思是,推理完了生成的时候应该一下子生成一大篇文章但实际上 ...

推理完了生成的时候应该一下子生成一大篇文章
——就是这个意思

ustone 发表于 2025-2-20 21:59:53

emi 发表于 2025-2-20 20:39
那是故意的,就像股市,在电脑上改个数字而已,那么辛苦。

逐字动画效果

washu 发表于 2025-2-20 22:06:41

ustone 发表于 2025-2-20 21:54
比如答案有300字,推理出前30个字到后30个字需要那么久,那内容逻辑怎么连贯一体?
会不会类似多线程的效果,服务器时间分片,用来同时服务上万个用户,每个用户一次一个字,一万个用户轮流一遍再下一个字?
从数据包封装角度其实增加了流量(封装的开销) ...

1、有一个上下文限制,这个也是需要硬件开销的,如果很长不能保证连贯

2、你可以自己跑 LLM 体会是不是这样 :D 要跑完整的 DSR1 哪怕是残血版都不容易,但一些小模型,一般的电脑还是跑得起的,比如我在自己电脑(AMD 3600X,16G RAM,Quadro P2000/5G)上跑的 DSR1-14b,你可自己体会

ustone 发表于 2025-2-20 22:19:58

washu 发表于 2025-2-20 22:06
1、有一个上下文限制,这个也是需要硬件开销的,如果很长不能保证连贯

2、你可以自己跑 LLM 体会是 ...

我觉得这些模型自己架设也是服务器版本的,不是单机版的,(输出)性能不是最优,可能有点关系。

washu 发表于 2025-2-20 22:40:48

ustone 发表于 2025-2-20 22:19
我觉得这些模型自己架设也是服务器版本的,不是单机版的,(输出)性能不是最优,可能有点关系。

就是你所谓的蛋鸡版,也就是量化精度降低的意思 :D
C:\Users\washu>ollama show deepseek-r1:14b
Model
    architecture      qwen2
    parameters          14.8B
    context length      131072
    embedding length    5120
    quantization      Q4_K_M

Parameters
    stop    "<|begin▁of▁sentence|>"
    stop    "<|end▁of▁sentence|>"
    stop    "<|User|>"
    stop    "<|Assistant|>"

License
    MIT License
    Copyright (c) 2023 DeepSeek

从这里看,我跑的 DSR1-14b 不仅是 DSR1 的 14b 残血版,量化精度也降低到 INT4,而原始的 DSR1 是 671b,量化精度 F8 :Q
页: [1] 2 3
查看完整版本: AI的回答为什么是一个字一个字出来的?