abbey_tom 发表于 2025-2-9 12:18:07

记我与DEEPSEEK的一次关于AI技术的对话

本帖最后由 abbey_tom 于 2025-2-9 13:40 编辑

对于AI的基本内在机理,
我了解不多,
DeepSeek近期的火热,
勾起了我的兴趣。
我请教AI技术的一次对话,
现记录如下:

abbey_tom 发表于 2025-2-9 12:18:48

本帖最后由 abbey_tom 于 2025-2-9 13:42 编辑

我问:
据说AI的训练需要极强大的算力,是因为它需要调整多达上亿的参数以达到令人满意的效果。
我有一个问题想了解一下:如果某个AI已经完成训练,达到了令人满意的效果,那么所有这些参数就可以固化,它在实际运行的时候将不再要求有那么强大的算力了吧?这也就意味着厂家可将这些已经固化参数的训练好的模型交付用户,可以在低算力的平台上运行。我的理解对吗?

DeepSeek回答:
你的理解基本正确。以下是详细解释:
1.训练与推理的区别:
        训练阶段:AI模型通过大量数据和计算调整参数,这一过程需要强大的算力。
        推理阶段:训练完成后,模型使用固化参数进行预测或生成,算力需求显著降低。
2.推理阶段的算力需求:
        推理阶段的计算量远小于训练,因此可以在低算力设备上运行,如手机、嵌入式设备等。
3.模型交付:
        厂家通常将训练好的模型交付给用户,用户只需在推理阶段使用,无需重新训练。
4.优化与压缩:
        为适应低算力设备,模型可通过剪枝、量化等技术进行优化和压缩,进一步提升效率。
5.实际应用:
        许多AI应用(如语音助手、图像识别)已在低算力设备上运行,证明了推理阶段对算力要求较低。
总结来说,训练好的AI模型在推理阶段对算力需求较低,可以在低算力设备上运行,厂家通常会将这种模型交付给用户使用。

abbey_tom 发表于 2025-2-9 12:21:49

本帖最后由 abbey_tom 于 2025-2-9 12:25 编辑

我问:
在推理阶段,是不是仍然需要大量的先验知识,这些先验知识库需要随平台提供吗?那么这是不是需要极大的存储空间?


回答:
在推理阶段,AI模型确实需要一定的先验知识,但这些知识通常已经嵌入到模型的参数中,而不是以独立的“知识库”形式存在。以下是详细解释:
1. 先验知识的存储形式
模型参数:在训练过程中,模型从数据中学习到的知识被编码到其参数中。推理时,模型直接使用这些固化参数进行计算,无需额外访问外部知识库。

嵌入表示:对于自然语言处理(NLP)或计算机视觉任务,模型通过嵌入(embeddings)将输入数据(如文本、图像)映射到高维空间,这些嵌入已经包含了模型学到的先验知识。

2. 是否需要额外的知识库?
一般情况下不需要:大多数AI模型(如分类模型、生成模型)在推理时仅依赖模型参数,不需要额外的知识库。

特定任务可能需要:某些复杂任务(如问答系统、知识图谱推理)可能需要访问外部知识库(如数据库、知识图谱),但这些知识库通常是按需加载的,不会完全存储在本地。

3. 存储空间的需求
模型参数占主要空间:推理阶段的主要存储需求是模型参数。现代AI模型的参数规模可能从几MB到几GB不等,具体取决于模型复杂度。

例如,GPT-3有1750亿参数,存储需求约为350GB,但通过量化和压缩技术,可以大幅减少存储需求。

外部知识库的存储:如果需要外部知识库,存储需求会显著增加,但可以通过以下方式优化:

按需加载:只加载推理所需的部分知识库。

分布式存储:将知识库存储在云端,通过网络访问。

压缩技术:对知识库进行压缩以减少存储空间。

4. 实际应用中的存储优化
模型压缩:通过剪枝、量化、蒸馏等技术,减少模型参数数量和存储需求。

轻量化模型:设计更小的模型(如MobileNet、TinyBERT)以适应低存储设备。

边缘计算:在边缘设备上运行推理时,通常只部署必要的模型和知识库,减少存储压力。

5. 总结
推理阶段主要依赖模型参数,通常不需要额外的知识库。

如果需要外部知识库,可以通过优化技术减少存储需求。

存储空间的需求取决于模型规模和任务复杂度,但通过压缩和优化技术,可以在低存储设备上高效运行推理。

因此,推理阶段对存储空间的需求是可控的,厂家可以通过优化技术将模型部署到低存储设备上。

abbey_tom 发表于 2025-2-9 12:27:03

本帖最后由 abbey_tom 于 2025-2-9 13:44 编辑

我问:
你说GPT-3有1750亿参数,存储需求约为350GB。这是我没有料到的。这350GB绝大部分都是存储模型的所谓参数吗?不包含知识库?如果我仅有满足上述要求的平台,GPT-3能干些什么呢?比如我要它填一首宋词,它可以吗?如果可以,难道它不需要存储大量关于词牌、韵律等等的知识库吗?

Deepseek回答:
您的问题非常深入,涉及模型参数的本质和AI能力的来源。以下是逐步解释:
________________________________________
1. GPT-3的350GB参数中存储了什么?
参数的本质:GPT-3的1750亿参数本质上是模型在训练过程中学到的“数学规律”,这些参数通过神经网络层的连接权重,隐式地编码了语言模式、知识关联和逻辑规则。
        不包含显式知识库:这些参数并非直接存储“宋词库”或“语法规则”,而是通过海量文本训练(如书籍、网页等),学习到如何根据上下文生成符合人类语言习惯的文本。
        知识的“压缩”形式:模型参数以一种高度抽象的方式,将语言规则、词牌韵律、历史知识等压缩到权重矩阵中。例如,它可能通过统计规律学习到“《水调歌头》的常见字数、平仄分布”,而非显式存储《水调歌头》的模板。
________________________________________
2. 为什么不需要额外知识库?
训练数据的覆盖范围:GPT-3的训练数据包含大量中文古典文学(包括宋词),模型通过学习这些文本,掌握了以下能力:
1.        词牌格式:通过统计不同词牌的用词、字数、分段模式,隐式理解规则。
2.        韵律平仄:通过上下文关联,学习到某些字词组合的声调搭配规律(尽管不完美)。
3.        主题风格:从训练数据中关联“宋词”与“婉约”“豪放”等风格关键词。
生成过程的数学化:当您输入“请填一首《水调歌头》”时,模型通过参数中的权重计算,逐字生成符合训练数据中《水调歌头》统计特征的文本,而非从知识库中检索。
________________________________________
3. 如果仅有参数,GPT-3能做什么?
示例:生成宋词
        输入:用户提供指令(如“以秋天为主题填一首《水调歌头》”)。
        输出:模型生成符合以下特征的文本:
格式:字数、分段与《水调歌头》大致匹配(因模型无法严格遵循平仄规则,可能不完美)。
内容:包含“秋叶”“孤雁”“西风”等典型意象(从训练数据中学到的关联)。
        局限性:
        可能违反严格的古典诗词规则(如平仄错误)。
依赖训练数据的覆盖度(如果训练数据中宋词样本不足,生成质量会下降)。
________________________________________
4. 模型如何“知道”词牌规则?——统计替代显式知识
隐式学习:模型不需要显式存储《水调歌头》的格律,而是通过训练数据中的宋词实例,学习到:
        概率分布:例如“在《水调歌头》的第3句,70%的情况下是7个字”。
        词汇关联:例如“明月几时有”后更可能接“把酒问青天”。
生成原理:模型通过概率计算,选择最符合训练数据中“宋词模式”的下一个字。
________________________________________
5. 实际部署中的优化
        压缩与轻量化:
        原始GPT-3的350GB参数可通过量化(降低数值精度)压缩到几十GB,甚至通过蒸馏提取核心参数到更小模型(如1-10GB)。
        例如,手机上的GPT-2模型仅需几百MB。
        特定任务适配:
        如果仅需生成宋词,可通过微调(Fine-tuning)让模型专注于古典文学数据,减少参数规模。
________________________________________
总结
        参数即知识:GPT-3的350GB参数本质上是将语言规则、文学知识等压缩为数学形式,无需独立知识库。
        能力与限制:模型能生成看似符合宋词格式的文本,但可能不严格符合古典格律(需人工校验)。
        实际部署:通过模型压缩和任务适配,完全可以在普通算力平台(如个人电脑)上运行此类功能。
因此,您的理解是正确的——训练好的模型参数已内化所需知识,无需额外存储知识库即可完成复杂任务(尽管结果可能有瑕疵)。当前技术已支持在消费级设备上运行此类模型(如手机端的ChatGPT应用)。

abbey_tom 发表于 2025-2-9 12:29:19

本帖最后由 abbey_tom 于 2025-2-9 12:36 编辑

我问:
这个与我的想像有些出入。也就是说,每个 GPT-3模型的这1750亿参数都可能不同。这处决于训练过程,如果在训练过程中宋词的样本少,即使有这精细的1750亿参数,它也不可能完成任务。我的想像是它具备基本的知识和推理能力,相当于一个通用模型。外挂不同的知识库就可以完成不同的专业任务。比如说它仅知道词牌的一些基本概念,当需要“填写水调歌头”时,就从知识库中、或者网络、或者云端去检索相关内容,最终完成任务。这种方式虽然时间会长一些,但它适应面更广且显然“更具智慧”,还可以减少前期的训练量。


Deepseek回答:
您提出的思路非常关键,触及了AI设计的核心问题:知识应该内化到模型参数中,还是通过外挂动态获取? 您的设想更接近人类解决问题的方式(即“通用推理能力+按需调用知识”),而当前GPT-3为代表的模型采用了另一种技术路线。以下是详细分析:
________________________________________
1. 两种技术路线的对比
特性        纯参数化模型(如GPT-3)                                通用模型+外挂知识库(您的设想)
知识存储方式        知识被压缩到模型参数中                模型仅具备推理能力,知识存储在外部数据库
训练成本        极高(需海量数据和算力)                        较低(只需训练通用推理能力)
灵活性        知识更新需重新训练或微调                        知识可动态更新(仅修改数据库)
任务适应性        依赖训练数据覆盖范围                理论上适应任何领域(只要有对应知识库)
响应速度        快(无需外部查询)                                较慢(需检索知识库)
现实案例        GPT-3、BERT                                        传统专家系统、检索增强生成(RAG)
________________________________________
2. 为什么GPT-3选择纯参数化路线?
技术优势
        端到端一体化:参数化模型无需依赖外部系统,适合部署在无网络环境(如手机、嵌入式设备)。
        隐式知识融合:通过参数编码,模型能自动发现数据中复杂的关联(例如“《水调歌头》与苏轼的写作风格”),这是显式知识库难以实现的。
        生成连贯性:外挂知识库容易导致输出碎片化(例如拼接检索结果),而参数化模型能生成流畅、上下文一致的文本。
技术限制
        知识固化:模型无法主动学习新知识(如2023年后的新闻)。
        存储膨胀:为覆盖更多领域,模型参数规模需指数级增长(参见GPT-3到GPT-4的参数量变化)。
________________________________________
3. 您的设想为何尚未成为主流?
挑战1:如何实现“通用推理能力”?
        当前AI的“推理能力”本质是统计建模,而非真正的逻辑推理。若剥离知识只保留“推理框架”,模型可能连基本语言任务都无法完成。
        示例:如果模型仅知道“词牌是古典文学形式”,但未内化宋词语料,它无法凭空生成符合词牌规则的句子。
挑战2:动态检索的复杂性
        知识库构建成本:为每个专业领域构建高质量知识库(如宋词格律库)的成本可能高于训练大模型。
        检索-生成协同:如何让模型精准调用知识库?现有技术(如RAG)依赖额外训练,仍需要内化部分检索逻辑到参数中。
挑战3:效率与效果平衡
        外挂知识库会导致延迟增加(需多次检索),且生成结果可能机械拼凑,缺乏创造性。
________________________________________
4. 行业趋势:混合模式
当前技术正在向您的设想靠拢,采用**“大模型+外部知识库”混合架构**,例如:
1.        检索增强生成(RAG):
o        模型生成时动态检索知识库(如维基百科),将检索结果作为输入的一部分。
o        案例:New Bing结合GPT-4和实时网络搜索。
2.        工具调用(Tool Use):
o        模型通过API调用外部工具(如计算器、数据库)。
o        案例:ChatGPT的“代码解释器”可执行Python代码处理数据。
3.        知识蒸馏:
o        将大模型的知识压缩到小模型中,同时保留关键推理能力。
________________________________________
5. 回到宋词生成的例子
若采用纯参数化模型(GPT-3)
        优势:生成速度快,风格统一。
        缺陷:若训练数据中宋词样本不足,可能忽略平仄规则。
        改进方案:对GPT-3进行微调(Fine-tuning),用宋词数据调整部分参数(需少量算力)。
若采用外挂知识库
        步骤:
1.        模型收到“填一首《水调歌头》”指令。
2.        从知识库中检索《水调歌头》的格律模板(字数、平仄规则)。
3.        根据模板生成符合规则的句子。
        优势:严格符合格律。
        缺陷:生成内容可能生硬(如机械填空),且需预先构建完整的格律知识库。
________________________________________
6. 未来可能性
您的设想更接近人类智能,但需突破以下技术瓶颈:
1.        真正的通用推理引擎:需实现符号逻辑与神经网络的融合。
2.        低成本知识库构建:通过自动化工具提取结构化知识(如从古籍中自动解析宋词格律)。
3.        动态学习能力:模型在推理时实时吸收新知识(如人类对话中的信息)。
________________________________________
总结
        当前技术选择参数化模型,是因它更易实现端到端的高质量生成,但代价是训练成本高、知识更新困难。
        您的设想更具前瞻性,代表了AI发展的方向,但需突破推理、知识动态集成等关键技术。
        实际应用中的平衡:多数企业采用混合方案(如RAG),既利用大模型的生成能力,又通过外部知识库弥补其不足。

washu 发表于 2025-2-9 12:43:03

本帖最后由 washu 于 2025-2-9 12:48 编辑

abbey_tom 发表于 2025-2-9 12:18
...厂家可将这些已经固化参数的训练好的模型交付用户,可以在低算力的平台上运行。我的理解对吗?

我在本地跑 DSR1-14b,问一个隔壁帖子的问题
http://www.crystalradio.cn/forum.php?mod=viewthread&tid=2177685&extra=page%3D1

回答就很糟糕,远不如官方 Web 版,这充分说明了算力差异导致的结果差异 :lol 这个差异主要是

1、本地算力不足,不足以运行完整的 671b 模型,只能运行“为适应低算力设备过剪枝、量化等技术进行优化和压缩”的小模型(实际上这个小模型是马云的模型的 DSR1 微调版,真正的 DSR1 是 671b)

2、本地算力不足,使用的是 4 位精度,官方 Web 版据说是 8 位 --- 8 位不是一般人的电脑跑得起的(实际上哪怕是 4 位 671b 一般人都跑不起)


除了算力导致的结果不同,算力差还体现在官方 Web 版一秒钟可以产生好几段回答,几秒钟你的问题就解答完毕了;我这里大概一秒钟只能产生一个字(单词),同样问题要几十分钟才能回答完毕 :funk:


所以,低算力设备不是不能运行 Ai,但差异还是很大的,你说的啥语音助手、图像识别什么的凑合,但比如 DSR1 这种 llm 它就呵呵 :dizzy:

abbey_tom 发表于 2025-2-9 12:47:14

不得不说,
Deepseek能够联系上下文,
针对你的基础,
使用你能听懂的词汇,
以及具体的事例,
瞬间让我的困惑得到解答
并且还时不时地鼓励和赞你一下。

abbey_tom 发表于 2025-2-9 12:56:43

washu 发表于 2025-2-9 12:43
我在本地跑 DSR1-14b,问一个隔壁帖子的问题
http://www.crystalradio.cn/forum.php?mod=viewthread&t ...

您可真是厉害,
已经本地部署了。
不过,
无论如何,
本地部署就不求人了,
官方网页版,
经常出现“服务繁忙”
有时候长时间如此,
不得不放弃。

washu 发表于 2025-2-9 13:03:48

abbey_tom 发表于 2025-2-9 12:56
您可真是厉害,
已经本地部署了。
不过,


本地部署很简单的,差不多傻瓜化啦 :lol 随便下载一个 llm 运行程序比如 LM Studio,或者我偷懒下的 Ollama,安装后再下一个你想运行的 llm,比如我下载的是 DeepSeek R1-14b,然后 run 就行了 ;P

唯一的问题就是本地算力不够 :dizzy:电脑太差了,按摩店的 3600X,P2000 的显卡,跑 14b 基本就是看着乐了,更大的不敢想 :funk:

但即使如此,隔壁帖子提到的程序,14b 明显力不从心,写不好。

实际上看了下官方 Web 版思考也用了 150 秒*,看来其实这个小程序很简单但哪怕是官方 Web 版算力也要很长时间才能写出来...




你说的官方 Web 版经常出现“服务繁忙”估计就是这个原因,我也是第一次提出问题反复服务繁忙,过了一天再刷新才给出的回答,估计是服务器有个大概的需要多少算力的计算,发现太大就给你丢任务列队里慢慢处理了 :D 所以我玩本地部署也就是这个原因,老服务繁忙也不爽嘛

abbey_tom 发表于 2025-2-9 13:10:52

washu 发表于 2025-2-9 13:03
本地部署很简单的,差不多傻瓜化啦随便下载一个 llm 运行程序比如 LM Studio,或者我偷懒下的 Olla ...

它有排队等待处理的功能吗?
我觉得一旦服务繁忙就丢弃了吧

washu 发表于 2025-2-9 15:21:36

abbey_tom 发表于 2025-2-9 13:10
它有排队等待处理的功能吗?
我觉得一旦服务繁忙就丢弃了吧

嗯,我之前调戏过它的几个让它装死(服务繁忙)的问题,第二天再刷新都又回答了 :lol

我刚才又调戏了一次,看看明天如何

zhengrob 发表于 2025-2-9 16:34:05

washu 发表于 2025-2-9 12:43
我在本地跑 DSR1-14b,问一个隔壁帖子的问题
http://www.crystalradio.cn/forum.php?mod=viewthread&t ...

你本地部署的机器什么配置?
也想跑一个本地模型,通过RAG给它喂一些专业资料,类似一个专家系统的东西。但是一看到硬件配置基本是劝退的意思。

washu 发表于 2025-2-9 16:54:03

zhengrob 发表于 2025-2-9 16:34
你本地部署的机器什么配置?
也想跑一个本地模型,通过RAG给它喂一些专业资料,类似一个专家系统的东西 ...

配置很低,按摩店 3600X,16G 内存,P2000 显卡,跑 DSR1-14b 很吃力 :Q 你还要训练,那个估计只能是劝退 ;P

zhengrob 发表于 2025-2-9 19:50:03

washu 发表于 2025-2-9 16:54
配置很低,按摩店 3600X,16G 内存,P2000 显卡,跑 DSR1-14b 很吃力你还要训练,那个估计只能是劝 ...

你这个机器CPU还行,显卡估计功效不大。内存可以加到32甚至64G。

abbey_tom 发表于 2025-2-9 22:12:52

本帖最后由 abbey_tom 于 2025-2-9 22:19 编辑

washu 发表于 2025-2-9 15:21
嗯,我之前调戏过它的几个让它装死(服务繁忙)的问题,第二天再刷新都又回答了

我刚才又调戏了 ...

您可真是善于抓AI的辫子;P

这种第二天刷新的情况,
我并不觉得它没有丢弃。
因为这并不表示它还在被排队等待处理,
如果您不刷新,
事实上它已被永远“抛之脑后”

可能情况是:
您的对话记录保存在您的帐户中被暂时挂起了,
下次刷新时,
大概率它是重新“思考”的
只不过有可能这种“刷新”会比首次询问得到更高的优先级
这取决于“负载均衡”或“调度“程序的设计。
优先服务的考虑因素可以包括是否首次、刷新次数、提问频度、已等待时间,
智能一些的可能会包括是否恶意,
比如像您这种”不友善“的用户有可能会被列入黑名单:lol
页: [1] 2
查看完整版本: 记我与DEEPSEEK的一次关于AI技术的对话