矿石收音机论坛

 找回密码
 加入会员

QQ登录

只需一步,快速开始

搜索
查看: 3194|回复: 34

AI的回答为什么是一个字一个字出来的?

[复制链接]
     
发表于 2025-2-20 17:00:25 | 显示全部楼层 |阅读模式
而不是一整篇出来
     
发表于 2025-2-20 17:10:47 | 显示全部楼层
控制一下,让人觉得它真的是很辛苦,在努力工作中。
回复 支持 反对

使用道具 举报

     
发表于 2025-2-20 17:17:35 | 显示全部楼层
因为慢
部署过deepseek就知道,推理过程是真的慢
回复 支持 反对

使用道具 举报

     
发表于 2025-2-20 17:35:29 | 显示全部楼层
bigluo 发表于 2025-2-20 17:10
控制一下,让人觉得它真的是很辛苦,在努力工作中。

说得你有 10 万美刀的老黄显卡一样,可以让 Ai 一下子蹦一大片文字
回复 支持 反对

使用道具 举报

发表于 2025-2-20 17:37:19 | 显示全部楼层
这也是为什么绝大多数AI直接输出结果,输出里省略冗长的推理过程。

也是为什么从年前到年后都是服务器忙,请下次再光临。

老衲心爱的gtx1050,装14B数据库,每分钟只能输出十几个字。




回复 支持 反对

使用道具 举报

     
发表于 2025-2-20 17:40:05 | 显示全部楼层
JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道,推理过程是真的慢

DS 推理过程更慢一些,不过楼主可能意思是,推理完了生成的时候应该一下子生成一大篇文章 但实际上这个速度也是有限的,说到底还是算力问题,算力不足

回复 支持 反对

使用道具 举报

     
发表于 2025-2-20 20:39:51 来自手机 | 显示全部楼层
那是故意的,就像股市,在电脑上改个数字而已,那么辛苦。
回复 支持 反对

使用道具 举报

     
 楼主| 发表于 2025-2-20 21:46:15 | 显示全部楼层
bigluo 发表于 2025-2-20 17:10
控制一下,让人觉得它真的是很辛苦,在努力工作中。

呈现一种效果
回复 支持 反对

使用道具 举报

     
 楼主| 发表于 2025-2-20 21:54:00 | 显示全部楼层
本帖最后由 ustone 于 2025-2-20 22:13 编辑
JuncoJet 发表于 2025-2-20 17:17
因为慢
部署过deepseek就知道,推理过程是真的慢


比如答案有300字,推理出前30个字到后30个字需要那么久,那内容逻辑怎么连贯一体?
会不会类似多线程的效果,服务器时间分片,用来同时服务上万个用户,每个用户一次一个字,一万个用户轮流一遍再下一个字?
回复 支持 反对

使用道具 举报

     
 楼主| 发表于 2025-2-20 21:56:33 | 显示全部楼层
girlexplorer 发表于 2025-2-20 17:37
这也是为什么绝大多数AI直接输出结果,输出里省略冗长的推理过程。

也是为什么从年前到年后都是服务器忙 ...

跟服务器忙应该有关系
回复 支持 反对

使用道具 举报

     
 楼主| 发表于 2025-2-20 21:58:58 | 显示全部楼层
washu 发表于 2025-2-20 17:40
DS 推理过程更慢一些,不过楼主可能意思是,推理完了生成的时候应该一下子生成一大篇文章  但实际上 ...

推理完了生成的时候应该一下子生成一大篇文章
——就是这个意思
回复 支持 反对

使用道具 举报

     
 楼主| 发表于 2025-2-20 21:59:53 | 显示全部楼层
emi 发表于 2025-2-20 20:39
那是故意的,就像股市,在电脑上改个数字而已,那么辛苦。

逐字动画效果
回复 支持 反对

使用道具 举报

     
发表于 2025-2-20 22:06:41 | 显示全部楼层
ustone 发表于 2025-2-20 21:54
比如答案有300字,推理出前30个字到后30个字需要那么久,那内容逻辑怎么连贯一体?
会不会类似多线程的效果,服务器时间分片,用来同时服务上万个用户,每个用户一次一个字,一万个用户轮流一遍再下一个字?
从数据包封装角度其实增加了流量(封装的开销) ...


1、有一个上下文限制,这个也是需要硬件开销的,如果很长不能保证连贯

2、你可以自己跑 LLM 体会是不是这样 要跑完整的 DSR1 哪怕是残血版都不容易,但一些小模型,一般的电脑还是跑得起的,比如我在自己电脑(AMD 3600X,16G RAM,Quadro P2000/5G)上跑的 DSR1-14b,你可自己体会
未标题-1ds9.png
回复 支持 反对

使用道具 举报

     
 楼主| 发表于 2025-2-20 22:19:58 | 显示全部楼层
washu 发表于 2025-2-20 22:06
1、有一个上下文限制,这个也是需要硬件开销的,如果很长不能保证连贯

2、你可以自己跑 LLM 体会是 ...

我觉得这些模型自己架设也是服务器版本的,不是单机版的,(输出)性能不是最优,可能有点关系。
回复 支持 反对

使用道具 举报

     
发表于 2025-2-20 22:40:48 | 显示全部楼层
ustone 发表于 2025-2-20 22:19
我觉得这些模型自己架设也是服务器版本的,不是单机版的,(输出)性能不是最优,可能有点关系。

就是你所谓的蛋鸡版,也就是量化精度降低的意思
C:\Users\washu>ollama show deepseek-r1:14b
  Model
    architecture        qwen2
    parameters          14.8B
    context length      131072
    embedding length    5120
    quantization        Q4_K_M

  Parameters
    stop    "<|begin▁of▁sentence|>"
    stop    "<|end▁of▁sentence|>"
    stop    "<|User|>"
    stop    "<|Assistant|>"

  License
    MIT License
    Copyright (c) 2023 DeepSeek

从这里看,我跑的 DSR1-14b 不仅是 DSR1 的 14b 残血版,量化精度也降低到 INT4,而原始的 DSR1 是 671b,量化精度 F8
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

小黑屋|手机版|矿石收音机 ( 蒙ICP备05000029号-1 )

蒙公网安备 15040402000005号

GMT+8, 2025-4-26 04:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表