AI的回答为什么是一个字一个字出来的？

ustone 发表于 2025-2-20 17:00:25

而不是一整篇出来

bigluo 发表于 2025-2-20 17:10:47

控制一下，让人觉得它真的是很辛苦，在努力工作中。

JuncoJet 发表于 2025-2-20 17:17:35

因为慢
部署过deepseek就知道，推理过程是真的慢

washu 发表于 2025-2-20 17:35:29

bigluo 发表于 2025-2-20 17:10
控制一下，让人觉得它真的是很辛苦，在努力工作中。

说得你有 10 万美刀的老黄显卡一样，可以让 Ai 一下子蹦一大片文字 ;P

girlexplorer 发表于 2025-2-20 17:37:19

这也是为什么绝大多数AI直接输出结果，输出里省略冗长的推理过程。

也是为什么从年前到年后都是服务器忙，请下次再光临。

老衲心爱的gtx1050，装14B数据库，每分钟只能输出十几个字。

washu 发表于 2025-2-20 17:40:05

JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道，推理过程是真的慢

DS 推理过程更慢一些，不过楼主可能意思是，推理完了生成的时候应该一下子生成一大篇文章 :lol 但实际上这个速度也是有限的，说到底还是算力问题，算力不足

emi 发表于 2025-2-20 20:39:51

那是故意的，就像股市，在电脑上改个数字而已，那么辛苦。

ustone 发表于 2025-2-20 21:46:15

bigluo 发表于 2025-2-20 17:10
控制一下，让人觉得它真的是很辛苦，在努力工作中。

呈现一种效果

ustone 发表于 2025-2-20 21:54:00

本帖最后由 ustone 于 2025-2-20 22:13 编辑

JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道，推理过程是真的慢

比如答案有300字，推理出前30个字到后30个字需要那么久，那内容逻辑怎么连贯一体？
会不会类似多线程的效果，服务器时间分片，用来同时服务上万个用户，每个用户一次一个字，一万个用户轮流一遍再下一个字？

ustone 发表于 2025-2-20 21:56:33

girlexplorer 发表于 2025-2-20 17:37
这也是为什么绝大多数AI直接输出结果，输出里省略冗长的推理过程。

也是为什么从年前到年后都是服务器忙 ...

跟服务器忙应该有关系

ustone 发表于 2025-2-20 21:58:58

washu 发表于 2025-2-20 17:40
DS 推理过程更慢一些，不过楼主可能意思是，推理完了生成的时候应该一下子生成一大篇文章但实际上 ...

推理完了生成的时候应该一下子生成一大篇文章
——就是这个意思

ustone 发表于 2025-2-20 21:59:53

emi 发表于 2025-2-20 20:39
那是故意的，就像股市，在电脑上改个数字而已，那么辛苦。

逐字动画效果

washu 发表于 2025-2-20 22:06:41

ustone 发表于 2025-2-20 21:54
比如答案有300字，推理出前30个字到后30个字需要那么久，那内容逻辑怎么连贯一体？
会不会类似多线程的效果，服务器时间分片，用来同时服务上万个用户，每个用户一次一个字，一万个用户轮流一遍再下一个字？
从数据包封装角度其实增加了流量（封装的开销） ...

1、有一个上下文限制，这个也是需要硬件开销的，如果很长不能保证连贯

2、你可以自己跑 LLM 体会是不是这样 :D 要跑完整的 DSR1 哪怕是残血版都不容易，但一些小模型，一般的电脑还是跑得起的，比如我在自己电脑（AMD 3600X，16G RAM，Quadro P2000/5G）上跑的 DSR1-14b，你可自己体会

ustone 发表于 2025-2-20 22:19:58

washu 发表于 2025-2-20 22:06
1、有一个上下文限制，这个也是需要硬件开销的，如果很长不能保证连贯

2、你可以自己跑 LLM 体会是 ...

我觉得这些模型自己架设也是服务器版本的，不是单机版的，（输出）性能不是最优，可能有点关系。

washu 发表于 2025-2-20 22:40:48

ustone 发表于 2025-2-20 22:19
我觉得这些模型自己架设也是服务器版本的，不是单机版的，（输出）性能不是最优，可能有点关系。

就是你所谓的蛋鸡版，也就是量化精度降低的意思 :D
C:\Users\washu>ollama show deepseek-r1:14b
Model
architecture    qwen2
parameters       14.8B
context length    131072
embedding length 5120
quantization    Q4_K_M

Parameters
stop "<｜begin▁of▁sentence｜>"
stop "<｜end▁of▁sentence｜>"
stop "<｜User｜>"
stop "<｜Assistant｜>"

License
MIT License
Copyright (c) 2023 DeepSeek

从这里看，我跑的 DSR1-14b 不仅是 DSR1 的 14b 残血版，量化精度也降低到 INT4，而原始的 DSR1 是 671b，量化精度 F8 :Q

页: [1] 2 3

矿石收音机论坛's Archiver

AI的回答为什么是一个字一个字出来的？