记我与DEEPSEEK的一次关于AI技术的对话

abbey_tom 发表于 2025-2-9 12:18:07

本帖最后由 abbey_tom 于 2025-2-9 13:40 编辑

对于AI的基本内在机理，
我了解不多，
DeepSeek近期的火热，
勾起了我的兴趣。
我请教AI技术的一次对话，
现记录如下：

abbey_tom 发表于 2025-2-9 12:18:48

本帖最后由 abbey_tom 于 2025-2-9 13:42 编辑

我问：
据说AI的训练需要极强大的算力，是因为它需要调整多达上亿的参数以达到令人满意的效果。
我有一个问题想了解一下：如果某个AI已经完成训练，达到了令人满意的效果，那么所有这些参数就可以固化，它在实际运行的时候将不再要求有那么强大的算力了吧？这也就意味着厂家可将这些已经固化参数的训练好的模型交付用户，可以在低算力的平台上运行。我的理解对吗？

DeepSeek回答：
你的理解基本正确。以下是详细解释：
1.训练与推理的区别：
训练阶段：AI模型通过大量数据和计算调整参数，这一过程需要强大的算力。
推理阶段：训练完成后，模型使用固化参数进行预测或生成，算力需求显著降低。
2.推理阶段的算力需求：
推理阶段的计算量远小于训练，因此可以在低算力设备上运行，如手机、嵌入式设备等。
3.模型交付：
厂家通常将训练好的模型交付给用户，用户只需在推理阶段使用，无需重新训练。
4.优化与压缩：
为适应低算力设备，模型可通过剪枝、量化等技术进行优化和压缩，进一步提升效率。
5.实际应用：
许多AI应用（如语音助手、图像识别）已在低算力设备上运行，证明了推理阶段对算力要求较低。
总结来说，训练好的AI模型在推理阶段对算力需求较低，可以在低算力设备上运行，厂家通常会将这种模型交付给用户使用。

abbey_tom 发表于 2025-2-9 12:21:49

本帖最后由 abbey_tom 于 2025-2-9 12:25 编辑

我问：
在推理阶段，是不是仍然需要大量的先验知识，这些先验知识库需要随平台提供吗？那么这是不是需要极大的存储空间？

回答：
在推理阶段，AI模型确实需要一定的先验知识，但这些知识通常已经嵌入到模型的参数中，而不是以独立的“知识库”形式存在。以下是详细解释：
1. 先验知识的存储形式
模型参数：在训练过程中，模型从数据中学习到的知识被编码到其参数中。推理时，模型直接使用这些固化参数进行计算，无需额外访问外部知识库。

嵌入表示：对于自然语言处理（NLP）或计算机视觉任务，模型通过嵌入（embeddings）将输入数据（如文本、图像）映射到高维空间，这些嵌入已经包含了模型学到的先验知识。

2. 是否需要额外的知识库？
一般情况下不需要：大多数AI模型（如分类模型、生成模型）在推理时仅依赖模型参数，不需要额外的知识库。

特定任务可能需要：某些复杂任务（如问答系统、知识图谱推理）可能需要访问外部知识库（如数据库、知识图谱），但这些知识库通常是按需加载的，不会完全存储在本地。

3. 存储空间的需求
模型参数占主要空间：推理阶段的主要存储需求是模型参数。现代AI模型的参数规模可能从几MB到几GB不等，具体取决于模型复杂度。

例如，GPT-3有1750亿参数，存储需求约为350GB，但通过量化和压缩技术，可以大幅减少存储需求。

外部知识库的存储：如果需要外部知识库，存储需求会显著增加，但可以通过以下方式优化：

按需加载：只加载推理所需的部分知识库。

分布式存储：将知识库存储在云端，通过网络访问。

压缩技术：对知识库进行压缩以减少存储空间。

4. 实际应用中的存储优化
模型压缩：通过剪枝、量化、蒸馏等技术，减少模型参数数量和存储需求。

轻量化模型：设计更小的模型（如MobileNet、TinyBERT）以适应低存储设备。

边缘计算：在边缘设备上运行推理时，通常只部署必要的模型和知识库，减少存储压力。

5. 总结
推理阶段主要依赖模型参数，通常不需要额外的知识库。

如果需要外部知识库，可以通过优化技术减少存储需求。

存储空间的需求取决于模型规模和任务复杂度，但通过压缩和优化技术，可以在低存储设备上高效运行推理。

因此，推理阶段对存储空间的需求是可控的，厂家可以通过优化技术将模型部署到低存储设备上。

abbey_tom 发表于 2025-2-9 12:27:03

本帖最后由 abbey_tom 于 2025-2-9 13:44 编辑

我问：
你说GPT-3有1750亿参数，存储需求约为350GB。这是我没有料到的。这350GB绝大部分都是存储模型的所谓参数吗？不包含知识库？如果我仅有满足上述要求的平台，GPT-3能干些什么呢？比如我要它填一首宋词，它可以吗？如果可以，难道它不需要存储大量关于词牌、韵律等等的知识库吗？

Deepseek回答：
您的问题非常深入，涉及模型参数的本质和AI能力的来源。以下是逐步解释：
________________________________________
1. GPT-3的350GB参数中存储了什么？
参数的本质：GPT-3的1750亿参数本质上是模型在训练过程中学到的“数学规律”，这些参数通过神经网络层的连接权重，隐式地编码了语言模式、知识关联和逻辑规则。
不包含显式知识库：这些参数并非直接存储“宋词库”或“语法规则”，而是通过海量文本训练（如书籍、网页等），学习到如何根据上下文生成符合人类语言习惯的文本。
知识的“压缩”形式：模型参数以一种高度抽象的方式，将语言规则、词牌韵律、历史知识等压缩到权重矩阵中。例如，它可能通过统计规律学习到“《水调歌头》的常见字数、平仄分布”，而非显式存储《水调歌头》的模板。
________________________________________
2. 为什么不需要额外知识库？
训练数据的覆盖范围：GPT-3的训练数据包含大量中文古典文学（包括宋词），模型通过学习这些文本，掌握了以下能力：
1. 词牌格式：通过统计不同词牌的用词、字数、分段模式，隐式理解规则。
2. 韵律平仄：通过上下文关联，学习到某些字词组合的声调搭配规律（尽管不完美）。
3. 主题风格：从训练数据中关联“宋词”与“婉约”“豪放”等风格关键词。
生成过程的数学化：当您输入“请填一首《水调歌头》”时，模型通过参数中的权重计算，逐字生成符合训练数据中《水调歌头》统计特征的文本，而非从知识库中检索。
________________________________________
3. 如果仅有参数，GPT-3能做什么？
示例：生成宋词
输入：用户提供指令（如“以秋天为主题填一首《水调歌头》”）。
输出：模型生成符合以下特征的文本：
格式：字数、分段与《水调歌头》大致匹配（因模型无法严格遵循平仄规则，可能不完美）。
内容：包含“秋叶”“孤雁”“西风”等典型意象（从训练数据中学到的关联）。
局限性：
可能违反严格的古典诗词规则（如平仄错误）。
依赖训练数据的覆盖度（如果训练数据中宋词样本不足，生成质量会下降）。
________________________________________
4. 模型如何“知道”词牌规则？——统计替代显式知识
隐式学习：模型不需要显式存储《水调歌头》的格律，而是通过训练数据中的宋词实例，学习到：
概率分布：例如“在《水调歌头》的第3句，70%的情况下是7个字”。
词汇关联：例如“明月几时有”后更可能接“把酒问青天”。
生成原理：模型通过概率计算，选择最符合训练数据中“宋词模式”的下一个字。
________________________________________
5. 实际部署中的优化
压缩与轻量化：
原始GPT-3的350GB参数可通过量化（降低数值精度）压缩到几十GB，甚至通过蒸馏提取核心参数到更小模型（如1-10GB）。
例如，手机上的GPT-2模型仅需几百MB。
特定任务适配：
如果仅需生成宋词，可通过微调（Fine-tuning）让模型专注于古典文学数据，减少参数规模。
________________________________________
总结
参数即知识：GPT-3的350GB参数本质上是将语言规则、文学知识等压缩为数学形式，无需独立知识库。
能力与限制：模型能生成看似符合宋词格式的文本，但可能不严格符合古典格律（需人工校验）。
实际部署：通过模型压缩和任务适配，完全可以在普通算力平台（如个人电脑）上运行此类功能。
因此，您的理解是正确的——训练好的模型参数已内化所需知识，无需额外存储知识库即可完成复杂任务（尽管结果可能有瑕疵）。当前技术已支持在消费级设备上运行此类模型（如手机端的ChatGPT应用）。

abbey_tom 发表于 2025-2-9 12:29:19

本帖最后由 abbey_tom 于 2025-2-9 12:36 编辑

我问：
这个与我的想像有些出入。也就是说，每个 GPT-3模型的这1750亿参数都可能不同。这处决于训练过程，如果在训练过程中宋词的样本少，即使有这精细的1750亿参数，它也不可能完成任务。我的想像是它具备基本的知识和推理能力，相当于一个通用模型。外挂不同的知识库就可以完成不同的专业任务。比如说它仅知道词牌的一些基本概念，当需要“填写水调歌头”时，就从知识库中、或者网络、或者云端去检索相关内容，最终完成任务。这种方式虽然时间会长一些，但它适应面更广且显然“更具智慧”，还可以减少前期的训练量。

Deepseek回答：
您提出的思路非常关键，触及了AI设计的核心问题：知识应该内化到模型参数中，还是通过外挂动态获取？您的设想更接近人类解决问题的方式（即“通用推理能力+按需调用知识”），而当前GPT-3为代表的模型采用了另一种技术路线。以下是详细分析：
________________________________________
1. 两种技术路线的对比
特性纯参数化模型（如GPT-3）通用模型+外挂知识库（您的设想）
知识存储方式知识被压缩到模型参数中模型仅具备推理能力，知识存储在外部数据库
训练成本极高（需海量数据和算力）较低（只需训练通用推理能力）
灵活性知识更新需重新训练或微调知识可动态更新（仅修改数据库）
任务适应性依赖训练数据覆盖范围理论上适应任何领域（只要有对应知识库）
响应速度快（无需外部查询）较慢（需检索知识库）
现实案例 GPT-3、BERT 传统专家系统、检索增强生成（RAG）
________________________________________
2. 为什么GPT-3选择纯参数化路线？
技术优势
端到端一体化：参数化模型无需依赖外部系统，适合部署在无网络环境（如手机、嵌入式设备）。
隐式知识融合：通过参数编码，模型能自动发现数据中复杂的关联（例如“《水调歌头》与苏轼的写作风格”），这是显式知识库难以实现的。
生成连贯性：外挂知识库容易导致输出碎片化（例如拼接检索结果），而参数化模型能生成流畅、上下文一致的文本。
技术限制
知识固化：模型无法主动学习新知识（如2023年后的新闻）。
存储膨胀：为覆盖更多领域，模型参数规模需指数级增长（参见GPT-3到GPT-4的参数量变化）。
________________________________________
3. 您的设想为何尚未成为主流？
挑战1：如何实现“通用推理能力”？
当前AI的“推理能力”本质是统计建模，而非真正的逻辑推理。若剥离知识只保留“推理框架”，模型可能连基本语言任务都无法完成。
示例：如果模型仅知道“词牌是古典文学形式”，但未内化宋词语料，它无法凭空生成符合词牌规则的句子。
挑战2：动态检索的复杂性
知识库构建成本：为每个专业领域构建高质量知识库（如宋词格律库）的成本可能高于训练大模型。
检索-生成协同：如何让模型精准调用知识库？现有技术（如RAG）依赖额外训练，仍需要内化部分检索逻辑到参数中。
挑战3：效率与效果平衡
外挂知识库会导致延迟增加（需多次检索），且生成结果可能机械拼凑，缺乏创造性。
________________________________________
4. 行业趋势：混合模式
当前技术正在向您的设想靠拢，采用**“大模型+外部知识库”混合架构**，例如：
1. 检索增强生成（RAG）：
o 模型生成时动态检索知识库（如维基百科），将检索结果作为输入的一部分。
o 案例：New Bing结合GPT-4和实时网络搜索。
2. 工具调用（Tool Use）：
o 模型通过API调用外部工具（如计算器、数据库）。
o 案例：ChatGPT的“代码解释器”可执行Python代码处理数据。
3. 知识蒸馏：
o 将大模型的知识压缩到小模型中，同时保留关键推理能力。
________________________________________
5. 回到宋词生成的例子
若采用纯参数化模型（GPT-3）
优势：生成速度快，风格统一。
缺陷：若训练数据中宋词样本不足，可能忽略平仄规则。
改进方案：对GPT-3进行微调（Fine-tuning），用宋词数据调整部分参数（需少量算力）。
若采用外挂知识库
步骤：
1. 模型收到“填一首《水调歌头》”指令。
2. 从知识库中检索《水调歌头》的格律模板（字数、平仄规则）。
3. 根据模板生成符合规则的句子。
优势：严格符合格律。
缺陷：生成内容可能生硬（如机械填空），且需预先构建完整的格律知识库。
________________________________________
6. 未来可能性
您的设想更接近人类智能，但需突破以下技术瓶颈：
1. 真正的通用推理引擎：需实现符号逻辑与神经网络的融合。
2. 低成本知识库构建：通过自动化工具提取结构化知识（如从古籍中自动解析宋词格律）。
3. 动态学习能力：模型在推理时实时吸收新知识（如人类对话中的信息）。
________________________________________
总结
当前技术选择参数化模型，是因它更易实现端到端的高质量生成，但代价是训练成本高、知识更新困难。
您的设想更具前瞻性，代表了AI发展的方向，但需突破推理、知识动态集成等关键技术。
实际应用中的平衡：多数企业采用混合方案（如RAG），既利用大模型的生成能力，又通过外部知识库弥补其不足。

washu 发表于 2025-2-9 12:43:03

本帖最后由 washu 于 2025-2-9 12:48 编辑

abbey_tom 发表于 2025-2-9 12:18
...厂家可将这些已经固化参数的训练好的模型交付用户，可以在低算力的平台上运行。我的理解对吗？

我在本地跑 DSR1-14b，问一个隔壁帖子的问题
http://www.crystalradio.cn/forum.php?mod=viewthread&tid=2177685&extra=page%3D1

回答就很糟糕，远不如官方 Web 版，这充分说明了算力差异导致的结果差异 :lol 这个差异主要是

1、本地算力不足，不足以运行完整的 671b 模型，只能运行“为适应低算力设备过剪枝、量化等技术进行优化和压缩”的小模型（实际上这个小模型是马云的模型的 DSR1 微调版，真正的 DSR1 是 671b）

2、本地算力不足，使用的是 4 位精度，官方 Web 版据说是 8 位 --- 8 位不是一般人的电脑跑得起的（实际上哪怕是 4 位 671b 一般人都跑不起）

除了算力导致的结果不同，算力差还体现在官方 Web 版一秒钟可以产生好几段回答，几秒钟你的问题就解答完毕了；我这里大概一秒钟只能产生一个字（单词），同样问题要几十分钟才能回答完毕 :funk:

所以，低算力设备不是不能运行 Ai，但差异还是很大的，你说的啥语音助手、图像识别什么的凑合，但比如 DSR1 这种 llm 它就呵呵 :dizzy:

abbey_tom 发表于 2025-2-9 12:47:14

不得不说，
Deepseek能够联系上下文，
针对你的基础，
使用你能听懂的词汇，
以及具体的事例，
瞬间让我的困惑得到解答
并且还时不时地鼓励和赞你一下。

abbey_tom 发表于 2025-2-9 12:56:43

washu 发表于 2025-2-9 12:43
我在本地跑 DSR1-14b，问一个隔壁帖子的问题
http://www.crystalradio.cn/forum.php?mod=viewthread&t ...

您可真是厉害，
已经本地部署了。
不过，
无论如何，
本地部署就不求人了，
官方网页版，
经常出现“服务繁忙”
有时候长时间如此，
不得不放弃。

washu 发表于 2025-2-9 13:03:48

abbey_tom 发表于 2025-2-9 12:56
您可真是厉害，
已经本地部署了。
不过，

本地部署很简单的，差不多傻瓜化啦 :lol 随便下载一个 llm 运行程序比如 LM Studio，或者我偷懒下的 Ollama，安装后再下一个你想运行的 llm，比如我下载的是 DeepSeek R1-14b，然后 run 就行了 ;P

唯一的问题就是本地算力不够 :dizzy:电脑太差了，按摩店的 3600X，P2000 的显卡，跑 14b 基本就是看着乐了，更大的不敢想 :funk:

但即使如此，隔壁帖子提到的程序，14b 明显力不从心，写不好。

实际上看了下官方 Web 版思考也用了 150 秒*，看来其实这个小程序很简单但哪怕是官方 Web 版算力也要很长时间才能写出来...

你说的官方 Web 版经常出现“服务繁忙”估计就是这个原因，我也是第一次提出问题反复服务繁忙，过了一天再刷新才给出的回答，估计是服务器有个大概的需要多少算力的计算，发现太大就给你丢任务列队里慢慢处理了 :D 所以我玩本地部署也就是这个原因，老服务繁忙也不爽嘛

abbey_tom 发表于 2025-2-9 13:10:52

washu 发表于 2025-2-9 13:03
本地部署很简单的，差不多傻瓜化啦随便下载一个 llm 运行程序比如 LM Studio，或者我偷懒下的 Olla ...

它有排队等待处理的功能吗？
我觉得一旦服务繁忙就丢弃了吧

washu 发表于 2025-2-9 15:21:36

abbey_tom 发表于 2025-2-9 13:10
它有排队等待处理的功能吗？
我觉得一旦服务繁忙就丢弃了吧

嗯，我之前调戏过它的几个让它装死（服务繁忙）的问题，第二天再刷新都又回答了 :lol

我刚才又调戏了一次，看看明天如何

zhengrob 发表于 2025-2-9 16:34:05

washu 发表于 2025-2-9 12:43
我在本地跑 DSR1-14b，问一个隔壁帖子的问题
http://www.crystalradio.cn/forum.php?mod=viewthread&t ...

你本地部署的机器什么配置？
也想跑一个本地模型，通过RAG给它喂一些专业资料，类似一个专家系统的东西。但是一看到硬件配置基本是劝退的意思。

washu 发表于 2025-2-9 16:54:03

zhengrob 发表于 2025-2-9 16:34
你本地部署的机器什么配置？
也想跑一个本地模型，通过RAG给它喂一些专业资料，类似一个专家系统的东西 ...

配置很低，按摩店 3600X，16G 内存，P2000 显卡，跑 DSR1-14b 很吃力 :Q 你还要训练，那个估计只能是劝退 ;P

zhengrob 发表于 2025-2-9 19:50:03

washu 发表于 2025-2-9 16:54
配置很低，按摩店 3600X，16G 内存，P2000 显卡，跑 DSR1-14b 很吃力你还要训练，那个估计只能是劝 ...

你这个机器CPU还行，显卡估计功效不大。内存可以加到32甚至64G。

abbey_tom 发表于 2025-2-9 22:12:52

本帖最后由 abbey_tom 于 2025-2-9 22:19 编辑

washu 发表于 2025-2-9 15:21
嗯，我之前调戏过它的几个让它装死（服务繁忙）的问题，第二天再刷新都又回答了

我刚才又调戏了 ...

您可真是善于抓AI的辫子;P

这种第二天刷新的情况，
我并不觉得它没有丢弃。
因为这并不表示它还在被排队等待处理，
如果您不刷新，
事实上它已被永远“抛之脑后”

可能情况是：
您的对话记录保存在您的帐户中被暂时挂起了，
下次刷新时，
大概率它是重新“思考”的
只不过有可能这种“刷新”会比首次询问得到更高的优先级
这取决于“负载均衡”或“调度“程序的设计。
优先服务的考虑因素可以包括是否首次、刷新次数、提问频度、已等待时间，
智能一些的可能会包括是否恶意，
比如像您这种”不友善“的用户有可能会被列入黑名单:lol

页: [1] 2

矿石收音机论坛's Archiver

记我与DEEPSEEK的一次关于AI技术的对话