主流 LLM 个人使用体验：能力、特点与个人感受

作为一个日常使用 AI 模型的开发者和普通用户，这段时间我陆续体验了市面上不少主流大模型。这篇文章主要记录一下我对这些模型的真实使用感受，不涉及系统跑分，也不做严格的数据对比，纯粹从日常对话、编码开发、Agent 任务、写作、多模态和信息整理这些实际场景出发，分享一下我的个人感受。

当前时间线参考：GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash、Qwen 3.7-Max、GLM-5.1、Kimi K2.7 Code、MiniMax M3、DeepSeek V4 Pro

先说总体感受：目前 Agentic Coding 领域最强的一档，依然是 Claude Opus 系列和 GPT 系列。以我的实际使用体验来看，Claude 在工程规范、代码表达、文档质量和前端相关任务上非常强，而 GPT 在复杂推理、问题定位、指令遵循和长程任务稳定性上更突出。综合日常开发体验，我个人现在会更偏向 GPT5.5。

多模态能力方面，Gemini 仍然有一定优势，尤其是图像、视频理解和前端视觉设计相关任务，依旧是它比较有存在感的地方。长程研究任务和复杂推理方面，我体感 GPT 的优势更加明显。国产模型里，Qwen3.7-Max 这次提升非常大，尤其是推理能力、工具调用策略和编码场景中的问题发现能力。如果不考虑多模态能力缺失，在我目前的使用场景里，Qwen3.7-Max 基本可以算是国产模型里最强的一档了。

过去我们经常说国外 LLM 有“御三家”：Claude、GPT、Gemini。但从我现在的体感来看，Gemini 在 Agentic Coding、工具调用和复杂工程任务上已经出现了比较明显的掉队。它当然还有多模态和写作方面的特色，但在很多通用任务上，已经很难说稳定强于一些优秀国产模型了。

下面分模型具体聊。

Claude：工程感、表达能力和用户体验强#

我使用 Claude 的主要阶段集中在 Claude Opus4.5 到 Claude Opus4.7 发布前一个月左右。后来因为一些国内常见的原因，使用的比较少了。而且我当时主要使用的是 Opus 系列，所以这里的感受主要来自 Opus4.5 和 Opus4.6。

先说优点。

Claude 的编码能力毫无疑问是优秀的。它在 Coding 任务中展现出了很强的工程思维，包括代码结构、命名规范、模块拆分、错误处理、测试意识和整体代码质量。很多时候，它不是简单地“把功能写出来”，而是会自然地按一个比较成熟的工程师习惯去组织代码。

这里还有一个很重要的体感：Claude 对使用者提示词的鲁棒性很强。哪怕你的提示词没有写得特别严谨，它也经常能自动补全任务意图，理解你真正想做什么，并且按照比较合理的工程方式去推进。比如你只是让它“帮我加一个功能”，它往往不会只改一个最表层的函数，而是会顺手考虑类型定义、错误处理、测试、文档、调用链路这些东西。这种“它好像知道一个正经项目应该怎么写”的感觉，是 Claude 很明显的优势（这一点后续还会提到）。

这背后很容易让人感受到 Anthropic 在后训练阶段对 Coding 能力的重视。Claude 像是被灌输了大量软件工程最佳实践：写代码时会考虑可维护性，会主动补充测试，会注意边界情况，也会尽量保证实现方式干净、稳妥。它的代码经常不只是能跑，而是看起来也比较像一个认真工程师写出来的东西。

除了纯编码能力，Claude 的语言表达也相当强。它在 AI 小说爱好者常用的软件和社区里也经常被推荐，这一点并不奇怪。Claude 的文本输出不一定是辞藻最华丽、创造力最夸张的，但它非常符合人类的阅读习惯。它写出来的内容通常清楚、自然、节奏舒服，读起来不像很多模型那样机械。

这种表达能力在开发场景里也非常明显。以我目前用过的各种模型来说，Claude 对代码的解释、文档的编写、概念的描述，经常是最清楚、最有条理、阅读体验最好的。跟别的模型编写的文档比起来一看到就会感到眼前一亮的程度。

另一个体感很好的点是 Claude 的共情能力。使用 Claude 时，经常能感觉它更“懂”用户的意图和想法，也更会照顾用户的情绪和表达习惯。它不像某些模型那样冷冰冰地给出答案，而是会更自然地顺着你的上下文、困惑和情绪去回应。这种能力结合它优秀的语言表达，让大部分时候的使用体验都非常舒服。

当然，这种体验也有反面：当你遇到一个非常棘手的 Bug，让 Claude 连续查了几轮都没有进展时，它那些看起来很温和、很体贴的解释，就会显得有点像“没用的废话”。尤其是它一边安慰你、一边继续给出一些没有真正推进问题的分析时，那种感觉能直接治好你的低血压。

Claude 在 Agent 任务中的表现也比较亮眼。Agent 解决问题的能力，很多时候并不完全取决于模型能不能直接想出答案，也取决于它面对未知问题时如何试错、如何调整策略、如何探索不同路径。Claude 在这方面有一个很好的特点：它不太容易一条路走到黑。很多时候即使没有人类明确提醒，它也会主动换思路、查别的线索、尝试不同方案来推进任务。

不过，在我和身边人的使用过程中，Claude 在 Opus4.5、Opus4.6 时期也暴露出一些比较明显的问题。

第一个问题是，在大型开发任务中，Claude 有时会出现“偷工减料”的情况。比如有些功能没有真正实现，或者只实现了表层逻辑，却会认为任务已经完成。这一点和 GPT 相比比较明显。我个人认为，这可能和它的幻觉控制、复杂推理能力以及长程任务中的自检能力有关。它有时会把一个看起来完整的方案包装得很漂亮，但实际代码里有些关键环节并没有真正落地。

第二个问题是复杂问题分析和 Debug 能力。Claude 在处理一些思考难度较高、链路复杂、需要深入理解系统结构的问题时，相比 GPT 容易停留在表层。它会给出看似合理的分析，但有时无法真正深入到根因。尤其是后端复杂项目、框架内部问题、异步链路、状态一致性问题这类场景，Claude 有时会显得不够深。它能把现象解释得很清楚，但不一定能一路挖到最底下那个真正的坑。

第三个问题是输出速度。Claude，尤其是 Opus 系列，输出速度经常被吐槽。相比其他主流模型，它的速度明显慢一些。如果再叠加 Claude Code 本身的一些性能问题，整体体感会受到影响。能力强归强，但很多时候确实等得人有点急。

还有一点比较微妙：Claude 的指令遵循有时不够稳定。前面我说它对提示词的鲁棒性很强，这一点确实是优点，但更准确地说，Claude 像是有一套训练中学到的“最佳实践行为”。当用户没有明确说明某些要求时，比如是否需要补测试、是否需要运行测试、是否需要按某种工程方式组织代码，它往往会主动按照自己的最佳实践去做。

大部分时候这是优点，因为它能提高任务质量。但问题在于，有些时候用户已经明确说了不要做某些事，比如“写完代码后不用跑测试”，Claude 仍然可能坚持写测试、运行测试，或者继续执行它认为更稳妥的流程。它更愿意遵守训练中形成的任务策略，而不是完全服从用户的即时指令。这个特性在大多数任务中是加分项，但在某些明确约束的场景下会让人有点烦。

总体来说，Claude 的优势非常清晰：工程感强、表达好、文档质量高、Agent 行为自然、用户体验舒服。它的问题也比较明确：复杂推理和深层 Debug 不如 GPT 稳，输出慢，大型任务中偶尔会出现完成度不足的问题。在大多数开发场景里，它都能给出质量很高、体验很舒服的结果；但遇到特别复杂的问题时，它有时会停留在看起来合理的分析层面，距离真正定位到根因还差最后几步。

GPT：推理、稳定性和综合能力均衡#

GPT 系列型号很多。前几个版本里，除了常规模型，还有一些专门强化对话能力的 GPT Chat 模型。不过现在大部分人讨论的重点已经集中到 GPT5.4、GPT5.5 这一代。从 GPT5.4 开始，模型线也变得更统一，不再像之前那样有很多五花八门的特化版本。

GPT5 到 GPT5.4 期间，一个被很多人吐槽的问题是“不说人话”。这点和其他模型相比确实明显。它解释代码时经常显得生硬、难懂，句式重复，表达不够自然；在普通对话中，情感温度也比较低。尤其是和之前 GPT-4o 那种温柔、自然、富有陪伴感的风格相比，落差非常明显。很多时候你会觉得它确实很强，但就是不像一个愿意好好跟你说话的模型。

与此同时，GPT5 在推理能力、幻觉控制和指令遵循方面都有明显提升。OpenAI 一直强调减少幻觉、提升指令遵循、减少阿谀奉承，从实际体验来看，这些方向确实能感觉到。很多用户和媒体也认为，OpenAI 为了可靠性、推理能力和减少迎合，牺牲了一部分语言表达和情绪陪伴体验。这个取舍不能说完全不合理，但作为用户，确实会明显感觉到它变得更冷、更硬、更像工具。

不过，GPT5 到 GPT5.3 的整体能力表现，在很多用户眼里其实并不算特别理想。据我看到的一些社区说法，OpenAI 在 GPT-4o 之后的一段时间里，似乎没有很顺利地完成一个被广泛认可的新一代 frontier model 的全规模训练结果。这个说法未必能完全证实，但从当时的体感看，GPT5 到 GPT5.3 相比同期的 Claude 并没有展现出特别明显的优势，无论是编码体验还是日常使用口碑都不太能比得上Claude。再加上当时大部分重度 AI Coding 用户仍然集中在 Claude 生态里，实际使用 GPT5 系列的人也明显少很多，因此那段时间 OpenAI 给人的存在感反而没有过去那么强。

这种情况一直持续到 GPT5.4 前后才开始出现变化。虽然 GPT5.4 最大的提升更多体现在推理能力、编码能力和整体可靠性上，语言表达依然经常被人吐槽，但至少已经能让人感觉到 OpenAI 又重新找回了比较明确的进步节奏。而到了 GPT5.5，这种提升就变得更加全面了。GPT5.5 的表现被很多用户认可，我自己的体验也是如此：它的综合能力、世界知识、推理深度、编码能力和语言表达都有明显提升。尤其是从 GPT5.4 切到 GPT5.5 时，会很明显地感觉到它终于能说人话了。

GPT 系列一贯的特点是强大的推理能力。OpenAI 长期重视推理和数学能力训练，这在模型行为上非常明显。和 Claude Opus 对比时，GPT 在推理深度、细节把握、复杂问题拆解方面经常更强。它更擅长从表面现象一路追到深层原因，也更容易发现那些隐藏在上下文里的关键条件。

这一点在 Debug 和复杂后端问题上尤其明显。Claude 有时会给出一个很好看的解释，而 GPT 更可能抓住那个真正导致问题的细节。它的表达不一定讨喜，但在关键问题上经常能更快把你带到正确方向。很多时候你看它的分析，会有一种“它是真的在推，不是在顺着话编”的感觉。

从 GPT5.3 Codex 开始，GPT 的编码能力有了明显提升。到了 GPT5.4，在推理能力进一步增强的基础上，Coding 能力也大幅进步，已经能接近甚至在部分场景超过 Claude Opus4.6。GPT 也终于在 Agentic Coding 领域真正“上桌”了。

GPT5.4 的主要问题还是“不说人话”，语言表达让人不太能接受，在编写文本、回答问题、解释代码的时候常常表达不清楚，要求它写的文档也是不那么讨喜。

GPT5.5 则改善了很多。相比 GPT5.4，能明显感觉到它的世界知识更丰富，语言表达能力更好，Agentic Coding 能力也继续提升。在很多测试和用户反馈中，GPT5.5 的表现已经超过 Claude Opus4.6、4.7，并且在大部分测评中都强于 Opus4.8。实际使用中，它完成长程 Agent 任务的稳定性很强，遇到复杂问题时也更能撑住。

当然，GPT5.5 也不是没有短板。它在视觉理解、前端设计和审美相关任务上仍然不如 Claude 或 Gemini 稳定。尤其是在 Opus4.7 重点提升前端设计和开发能力之后，GPT 在这方面的差距更明显。但如果是大部分 Agent 任务、项目开发、后端工程、复杂问题定位，我个人还是更倾向于 GPT5.5。

总体来说，GPT 给我的感觉是“综合能力最均衡”。它没有 Claude 那么强的情绪表达和文档美感，也没有 Gemini 那么突出的多模态和写作创造力，但它的推理能力、任务稳定性、幻觉控制、指令遵循和编码能力都很强。它输出速度不算慢，解决问题能力强，做 Agent 任务时非常可靠。它没有特别突出的点，但就是好用。

题外话，从 GPT5.4 开始，大家对 GPT 的印象明显好了很多，使用 Codex 的人也多了起来。主要原因很直接：能力强、价格相对合理、订阅性价比高。GPT5.4 的 API 价格和 Claude Sonnet 系列接近，但在不少场景中却有接近 Opus 的能力。同时，Codex 的桌面应用程序也发布了，体验比 Claude Desktop 好的多。Openai 对部分地区用户的限制也比 Anthropic 少一些。再加上时不时重置用户的 Codex 额度，这些因素叠加起来，一下子打破了 Anthropic 在 AI Coding 领域长期的统治地位。

Gemini：多模态和写作突出，但 Agent 能力短板明显#

说到 Gemini，熟悉它的人大概都会想到两个标签：多模态和写作。

Gemini 的视觉能力一直很强，这带来了优秀的多模态理解能力。它对图片、视频、界面截图、视觉布局的分析都很不错。与此相关的是前端设计能力，Gemini 在 UI 审美、页面布局、视觉细节理解上也有明显优势。很多视觉相关任务交给它，确实能感觉到它比其他模型更“看得懂”。

写作方面，Gemini 和 Claude 一样，也是很多 AI 小说用户比较喜欢的模型。Gemini 的写作特点是创造力强、修辞灵活、词汇丰富。在文学性表达方面，它经常比其他模型更像一个“会写东西”的模型。当然，看多了 Gemini 的小说，也会感受到一些固定风格和审美疲劳，很多表达会有一种似曾相识的味道。但总体来说，它已经是最接近优秀人类写作者的一类模型之一。通过特定提示词和 harness 约束，它写出来的内容在很多情况下已经很难看出是 AI 写作。

Gemini 在思考和推理时的表现也有特色。相比 GPT，它的思路更发散，对问题的理解有时也更开放。它不一定总是最严谨，但经常能提出一些别的模型不太会想到的角度。很多开放性问题上，它的回答会更有想象力。

此外，Gemini 的世界知识非常庞大，知识分辨率也很高。从很多测试中可以看到，Gemini 对大量文学作品具备很强的原文记忆和复现能力，即使不借助外部工具，也能以很高的准确度复现原文。这一点在文学、文化、历史、长文本理解相关场景中很有存在感。

研究领域方面，DeepMind 官方和各个科研团队的合作已经有不少成果，Gemini 本身也参与了不少科研相关工作。不过我并不从事这类工作，对实际情况了解有限，这里不做太多评价。

Gemini 的优点很明显，缺点也同样很明显。

最大的问题是 Agentic 任务和工具调用能力。Gemini3.0 Pro、3.1 Pro 在这方面的表现都比较差，甚至比不上很多国产模型。Gemini3.5 Flash 在工具调用和 Agent 表现上有所提升，但和 GPT、Claude 这些主流模型相比，依然算不上优秀。

AI Coding 能力也是类似情况。前几代 Gemini Pro 在编码方面表现不算突出，Gemini3.5 Flash 有提升，但从我看到的测试和用户反馈来看，很难说它有超过国产优秀编码模型的水平。再考虑到 API 价格已经赶上Gemini2.5 Flash、Antigravity 额度被大砍等因素，它在编码场景中的性价比就显得比较尴尬，甚至可以说非常鸡肋。

所以 Gemini 现在的处境就很尴尬。它的多模态、写作、视觉设计能力依旧有特色，但在 Agentic Coding、工具调用、复杂工程任务这些现在主流的 LLM 应用场景上不够强。在国内社区被称为美国豆包也是相当形象：语言表达和多模态能力很亮眼，其他复杂任务能力相对差劲。

DeepSeek：写作和推理有特色，但幻觉问题明显#

DeepSeek 一直是国内非常受关注的 AI Lab 和模型系列。因为各种原因，它的模型迭代速度不算特别高，很多人对它的评价重点也集中在“价格便宜、能力够用、性价比高”。但 DeepSeek 系列确实有一些独特气质。

DeepSeek 给我的整体感觉比较接近 Gemini。它的写作能力不错，擅长修辞、词汇运用和创造性描写，口语化表达也很好，有一种在和网友聊天的感觉。相比很多模型那种标准化、模板化的表达，DeepSeek 的输出更有“人味”。

DeepSeek 官方说明过他们在角色扮演方面是有专门训练的。无论是输出内容还是思维风格，它都比较擅长进入指定角色，角色扮演场景下的表现相当不错。这也是很多用户喜欢它的原因之一。有时你会感觉它不是在机械执行一个角色设定，而是真的沿着那个角色的语言习惯和心理状态在思考和说话，包括它在思维链中的输出也完全进入了角色的身份。

推理方面，DeepSeek 也有自己的特点。它的思路有时比较发散，同时又能沿着一个问题展开较深的思考，整体推理表现不错。它不一定像 GPT 那样稳定和严谨，但在一些开放性问题上，经常能给出有意思的分析。

不过 DeepSeek 最大的问题是幻觉比较严重。我个人感觉，这可能和它较强的角色扮演能力有些关系。网上的一个经典例子：用户故意输入一个，也就是 DeepSeek 的思考内容开始标记，它就有较高概率进入幻觉，认为前面已经和用户聊过一些实际并不存在的内容。这个例子反映出它在上下文边界和事实控制上的问题。

DeepSeek 的编程能力目前我认为属于国产模型的中等水平。它主要受限于幻觉问题，其次是工程能力还不够稳。它能写代码，但复杂项目中容易出现表面修补、错误理解上下文、实现不完整等情况。很多时候它看起来懂了，但真正落到代码实现上，会发现它其实没有把整个工程链路吃透。

现在的 DeepSeek V4 两个模型，从体验上看，我感觉后训练还没有完全到位，基座模型的能力可能还没有被充分释放。后续如果在工具调用、编码工程能力、幻觉控制和指令遵循方面继续加强，应该还有不少提升空间。

Qwen / 千问：国产模型里的中流砥柱，3.7-Max 提升明显#

Qwen 一直是国产模型里的中流砥柱。尤其是在小尺寸开源模型上，Qwen 长期保持非常强的竞争力，基本可以说是稳坐国产开源 SOTA 的核心位置之一。

大尺寸模型方面，Qwen 前几个版本的表现比较平庸，没有特色和优点，导致大家都不喜欢用它。从 Qwen3.5 Plus 开始，Plus 及以下尺寸模型具备了多模态能力，但 Plus 和 Max 在 3.5、3.6 两个版本里的整体表现还是很一般。

到了 Qwen3.7-Max，变化就非常明显了。它的编程能力和推理能力都有很大提升。以我的实际使用体验来说，如果不考虑前端开发和多模态能力，它已经是国产模型里最强的一档之一，甚至很多时候已经不是“国产里能用”，而是真的可以拿来和国外顶尖模型放在同一个任务里对比。

Qwen3.7-Max 最大的突破，我认为来自推理能力提升。它能发现很多细节问题，尤其是在代码审查、复杂逻辑分析和 Agent 任务中，经常能指出一些其他模型忽略的点。它的 API 输出速度也比较快，使用体验不错。

在编码场景里，我有时会让 Qwen3.7-Max 和 GPT5.5 互相 Review 代码。让我印象比较深的是，它确实能发现 GPT 没有发现的问题。工具调用方面，它的策略也很亮眼，表现出比较灵活、高效的 Agent 能力。有些问题 GPT5.5 查了很久没有定位到根因，Qwen3.7-Max 反而能在较短时间内推理出关键点。这种体验是很惊喜的，因为它不只是“能完成任务”，而是真的能在复杂问题里提供有效增量。

当然，它也有遗憾。最明显的是 Max 版本没有像 Plus 一样具备多模态能力，这对一些综合任务会造成限制。另一个问题是价格偏高，使得它不太适合无脑高频调用。但单看能力，Qwen3.7-Max 这次确实让我感到惊喜，也是目前我最愿意认真使用的国产模型之一。

Kimi：文档、设计和中等难度任务不错，复杂编码仍然吃力#

Kimi 从 K2.5 开始支持多模态，并且展现出比较强的设计和排版能力。无论是前端设计开发、PPT 制作，还是文档整理，Kimi 在国产模型里都算表现不错。

编码方面，Kimi 的表现相对一般。对于逻辑复杂的代码，它经常难以正确处理。修改代码时容易停留在表层，只改到比较上层的内容，没有深入理解各个模块、功能代码之间的关系，导致后续出现问题。尤其是后端开发、复杂业务逻辑、跨模块重构这类任务，它的稳定性不够好。

上下文长度也是一个问题。Kimi 只有 256K 上下文，在当前国内模型逐渐普及 1M 上下文的环境下，这个规格显得有些弱。

不过，Kimi 在解释代码原理、编写文档、制作 PPT、整理信息和一些常规长程 Agent 任务这些场景中表现不错。它的文字表达和编排展示能力比较好，大多数日常任务下，我感觉它略强于 DeepSeek。很多中等难度的任务交给它，体验还是比较舒服的。

Kimi 官方 API 的输出速度比较慢。以我的体验来看，它几乎是主流模型里最慢的一档。K2.5 和 K2.6 还存在过度思考的问题，经常围绕同一个内容反复思考，导致任务速度变慢，也会消耗大量 token。这个问题在 K2.7 Code 中有明显改善，不过官方明确说明这个模型的更偏编码场景，通用任务仍然推荐 K2.6。

综合来看，Kimi 是一个“用起来还行”的模型。做中等难度任务体验不错，比如日常办公、文档整理、信息收集、PPT 制作、简单前端页面等。但如果要高强度做复杂代码开发，尤其是后端工程开发，就比较不堪用。它适合处理杂事和做展示型内容，但不太适合让它一个人扛复杂工程。

MiniMax：速度和性价比不错，但能力还比较欠缺#

我在 MiniMax M2.1 时买过官方 Coding Plan，并使用过一段时间。那时它给我的感觉是能力中等，但速度快、价格便宜、量大管饱。网上评价也还可以，尤其是在一些轻量级 Agent 场景里，确实有一定吸引力。

但经过半年左右的时间，其他厂商的模型都有了很大进步，而 MiniMax 的模型能力提升并不明显。同时，它也有一些被社区诟病的刷分问题，导致很多用户对它的评价下降严重。

不过，MiniMax M3 支持多模态后，依然保持了较低定价和较高输出速度。在一些普通 Agent 场景中，它仍然有不错的性价比，所以还是能看到一部分用户继续使用。

从 M2.5 开始，MiniMax 和其他主流模型之间的能力差距就比较明显了。尤其是在编码领域，M2.1 时官方曾经重点宣传编码能力，但我当时的体验并不算好。它在很多时候都会出错，相比自己手写代码的优势几乎只有速度快这一个。M2.5 虽然有提升，但提升幅度有限，Benchmark 分数倒是提升巨大，可以说是“跑分好看，实际一坨”的代表了。

所以 MiniMax 对我来说更像是一个适合轻量任务、批量任务和低成本 Agent 场景的模型。需要大量调用、对准确率要求没那么极限时，它还有价值；但如果是复杂编码、深度推理或大型项目开发，它目前还是很难成为主力。

总结：顶尖模型仍然领先，国产模型已经越过“可用线”#

总体来看，Claude 和 GPT 代表的国外顶尖模型优势仍然明显。尤其是在复杂推理、Agentic Coding、工程能力、长程任务稳定性这些方面，它们依然处在最强一档。随着大规模数据中心投入使用，这些模型的迭代速度也越来越快，基本做到一个多月就有一次稳定的能力提升。现在的模型能力已经非常强，而且可以预见，在未来一段时间里它们还会继续稳步进步。

国产模型也在快速追赶。现在大部分国产模型已经越过了“可用”的及格线，在很多场景下都有不错表现。像 Qwen3.7-Max 这类模型甚至已经能在部分任务中和 GPT-5.5 一起产生作用。Kimi、DeepSeek、MiniMax 等模型也各自有明确的适用场景，不再是只能“凑合用”的状态。

从 Claude 和 GPT 的发展中，我们能很明显地感受到 Scaling Law 的力量。美国顶尖 AI 公司拥有巨量算力，可以训练和推理超大规模模型，这仍然是目前国产模型发展过程中最大的劣势之一。国内 AI 公司在高端计算卡和大规模数据中心资源上受到限制，这会直接影响模型训练规模、推理成本和迭代速度。

除了算力，国产模型还面临一个很重要的问题：高质量后训练数据不足。LLM 的训练通常大致可以分为预训练和后训练。预训练决定了基座模型的基础能力，而真正投入使用的成品模型，很大一部分体验来自后训练。我们平时评价的很多模型能力实际上就来源于后训练阶段，包括它的指令遵循、工具调用、推理风格、代码习惯、幻觉控制、表达方式和任务策略。

这些能力很大程度上依赖高质量后训练数据。和预训练可以利用大量现有语料不同，后训练数据更依赖长期积累、人工标注、真实用户反馈、复杂任务轨迹和高质量专家数据。从国产模型目前的表现来看，很多能力短板并不是单纯“模型不够大”，而是后训练质量、数据密度和任务经验还不够。

不过，我依然对国产模型后续的发展充满期待，尤其是 DeepSeek V4.1、Kimi K3、Qwen4-Max 等即将到来的新模型。随着国产算力的增加、后训练数据和 Agent 生态的持续完善，它们未来仍然有很大的提升空间。

对我个人来说，目前的使用策略大概是：

复杂 Coding、Agent 任务、后端项目开发，优先 GPT5.5 或 Claude Opus；前端设计、多模态理解、视觉相关任务，可以考虑 Gemini 或 Claude；国产模型里，复杂推理和代码 Review 会优先试 Qwen3.7-Max；文档整理、PPT、日常办公和中等难度任务，Kimi 的体验不错；需要便宜、快速、大量调用的轻量任务，可以考虑 MiniMax；写作、角色扮演或低成本 Agentic Coding，主要考虑 DeepSeek。

更多的时候当然是有什么用什么，只恨财力不足。

以上是我在真实使用中的一些感受记录。模型变化得非常快，今天的结论也许过一两个月就会被新版本刷新，所以把这些体验写下来，权当留个阶段性的参考。

TECH OTAKUS SAVE THE WORLD

Welcome to my blog