<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI on 陶政辰的笔记本</title><link>https://blog.zhengchentao.win/categories/ai/</link><description>Recent content in AI on 陶政辰的笔记本</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Sat, 02 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.zhengchentao.win/categories/ai/index.xml" rel="self" type="application/rss+xml"/><item><title>一份 AI 工程师的知识地图（2026 版）</title><link>https://blog.zhengchentao.win/posts/ai-engineer-map/</link><pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate><guid>https://blog.zhengchentao.win/posts/ai-engineer-map/</guid><description>
 &lt;blockquote&gt;
 &lt;p&gt;适合有一定技术背景的开发者快速建立 AI 知识框架。涵盖核心概念、工程实践、工具选型,持续更新。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="一基础层大模型"&gt;一、基础层：大模型
&lt;/h2&gt;&lt;p&gt;一切的起点。Claude（Anthropic）、GPT（OpenAI）、Gemini（Google）、DeepSeek、Qwen（阿里）都是&amp;quot;引擎&amp;quot;，通过 API 对外提供服务，上层所有应用都建立在这些模型之上。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主流模型对比：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;厂商&lt;/th&gt;
 &lt;th&gt;特点&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude 系列&lt;/td&gt;
 &lt;td&gt;Anthropic&lt;/td&gt;
 &lt;td&gt;长上下文强、指令遵循准确、代码能力突出&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-4o / o 系列&lt;/td&gt;
 &lt;td&gt;OpenAI&lt;/td&gt;
 &lt;td&gt;生态最成熟、多模态能力强、工具链完善&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemini 系列&lt;/td&gt;
 &lt;td&gt;Google&lt;/td&gt;
 &lt;td&gt;原生多模态、超长上下文（1M token）、深度集成 Google 工具&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek&lt;/td&gt;
 &lt;td&gt;深度求索&lt;/td&gt;
 &lt;td&gt;推理能力强、API 价格极低、开源友好&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Qwen 系列&lt;/td&gt;
 &lt;td&gt;阿里&lt;/td&gt;
 &lt;td&gt;中文效果好、有本地部署版本、国内访问友好&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;模型能力差距在收窄，但复杂推理、超长上下文、低幻觉率这几个维度顶尖模型依然领先。选型时不能只看价格，要结合实际任务类型判断。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二理解模型的工作方式"&gt;二、理解模型的工作方式
&lt;/h2&gt;&lt;p&gt;在用 AI 之前，有两件事必须先搞清楚，否则会踩很多莫名其妙的坑。&lt;/p&gt;
&lt;h3 id="上下文窗口context-window"&gt;上下文窗口（Context Window）
&lt;/h3&gt;&lt;p&gt;模型每次能&amp;quot;看到&amp;quot;的文本总量是有上限的，这个上限叫上下文窗口，输入和输出加在一起不能超过这个数。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;各模型上下文窗口：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;上下文窗口&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-4o&lt;/td&gt;
 &lt;td&gt;128K token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude Sonnet 4.6&lt;/td&gt;
 &lt;td&gt;200K token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Gemini 1.5 Pro&lt;/td&gt;
 &lt;td&gt;1M token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek-V3&lt;/td&gt;
 &lt;td&gt;128K token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;1 token 大约是 0.75 个英文单词，中文每个字大约 1～2 token。200K token 大概是一本 30 万字的书。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;两个重要的坑：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;第一，超出窗口后，模型不会报错，而是&amp;quot;忘掉&amp;quot;最早的内容。如果你把一段很长的代码库塞给 AI，它可能已经把最开始的文件内容忘了，给出的建议会出现前后矛盾。&lt;/p&gt;
&lt;p&gt;第二，&amp;ldquo;Lost in the Middle&amp;quot;问题——研究发现，模型对窗口开头和结尾的内容记忆最好，中间部分最容易被忽略。所以关键信息要放在 prompt 的开头或结尾，而不是埋在中间。&lt;/p&gt;
&lt;h3 id="ai-幻觉"&gt;AI 幻觉
&lt;/h3&gt;&lt;p&gt;模型生成文字的本质是&lt;strong&gt;预测下一个概率最高的 token&lt;/strong&gt;，不是在查找事实。这意味着它在不确定的时候不会说&amp;quot;我不知道&amp;rdquo;，而是倾向于生成一段&amp;quot;听起来合理&amp;quot;的内容。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;减少幻觉的主要手段：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;RAG&lt;/strong&gt;：把真实文档片段塞进 prompt，给模型&amp;quot;答题材料&amp;quot;（详见第四节）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;降低 temperature&lt;/strong&gt;：temperature 越低，输出越保守、越确定；越高，越有创意但越容易编造&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chain of Thought&lt;/strong&gt;：让模型先一步步推理，再给结论，减少跳步错误&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引用溯源&lt;/strong&gt;：要求模型回答时标注来源段落，可验证&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;RLHF 训练&lt;/strong&gt;：厂商通过人类反馈训练模型，让它学会说&amp;quot;我不确定&amp;quot;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;幻觉目前无法彻底消除。法律、医疗、财务等高风险场景无论模型多强，都必须有人工审核兜底。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三prompt-engineering"&gt;三、Prompt Engineering
&lt;/h2&gt;&lt;p&gt;Prompt 是和 AI 沟通的唯一渠道。写得好和写得差，效果差距可以很大。几个立竿见影的技巧：&lt;/p&gt;
&lt;h3 id="系统提示词system-prompt"&gt;系统提示词（System Prompt）
&lt;/h3&gt;&lt;p&gt;在对话开始前，用系统提示词定义 AI 的角色、能力边界和输出要求。这是最基础也最重要的一步。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;你是一个游戏后端开发专家，熟悉 .NET 和 SQL Server。
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;回答时：
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- 使用 C# 代码示例
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- 指出潜在的性能问题
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- 如果不确定，直接说不确定，不要猜测
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="few-shot-示例"&gt;Few-shot 示例
&lt;/h3&gt;&lt;p&gt;与其描述你想要什么，不如直接给 2～3 个输入-输出的例子，模型会自动理解规律。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;将以下日志条目格式化为 JSON：
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;输入：[2026-03-18 14:23:01] ERROR UserService 用户登录失败 uid=10234
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;输出：{&amp;#34;time&amp;#34;:&amp;#34;2026-03-18 14:23:01&amp;#34;,&amp;#34;level&amp;#34;:&amp;#34;ERROR&amp;#34;,&amp;#34;service&amp;#34;:&amp;#34;UserService&amp;#34;,&amp;#34;msg&amp;#34;:&amp;#34;用户登录失败&amp;#34;,&amp;#34;uid&amp;#34;:10234}
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;输入：[2026-03-18 14:25:43] INFO PayService 支付成功 orderId=88765
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;输出：
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="chain-of-thought思维链"&gt;Chain of Thought（思维链）
&lt;/h3&gt;&lt;p&gt;在 prompt 里加上&amp;quot;请一步一步思考&amp;quot;，让模型把推理过程写出来再给结论。对复杂问题效果显著，错误率明显下降。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;请一步一步分析这段 SQL 的性能问题，然后给出优化建议。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="指定输出格式"&gt;指定输出格式
&lt;/h3&gt;&lt;p&gt;明确告诉模型输出的结构，否则格式会很随意，后续解析麻烦。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;请用以下 JSON 格式返回结果，不要有其他内容：
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;{
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &amp;#34;issue&amp;#34;: &amp;#34;问题描述&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &amp;#34;severity&amp;#34;: &amp;#34;high|medium|low&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &amp;#34;suggestion&amp;#34;: &amp;#34;修复建议&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;}
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="反面示例告诉模型不要做什么"&gt;反面示例（告诉模型不要做什么）
&lt;/h3&gt;&lt;p&gt;光说&amp;quot;要做什么&amp;quot;有时候不够，同时说&amp;quot;不要做什么&amp;quot;往往更有效。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;分析这段代码，不要重复我已知的内容，不要给出明显的建议，
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;直接定位最可能导致线上 bug 的地方。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="常见误区"&gt;常见误区
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Prompt 越长越好&lt;/strong&gt;：不对，冗余信息会稀释关键指令，模型容易抓不住重点&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;请帮我&amp;rdquo;、&amp;ldquo;谢谢&amp;quot;有用&lt;/strong&gt;：没有，礼貌词不影响输出质量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;一次写好 prompt&lt;/strong&gt;：Prompt 是需要反复调试的，像调代码一样迭代&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="四核心技术"&gt;四、核心技术
&lt;/h2&gt;&lt;h3 id="rag检索增强生成"&gt;RAG（检索增强生成）
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;解决的问题：&lt;/strong&gt; AI 不知道你的内部数据，也不了解你业务的最新状态。&lt;/p&gt;
&lt;p&gt;解法不是训练模型（成本高、周期长、数据泄露风险大），而是在每次查询时，把相关文档片段检索出来，临时塞进 prompt 一起发给 AI。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;完整流程：&lt;/strong&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;【离线】文档切片 → Embedding 向量化 → 存入向量数据库
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;【在线】用户提问 → 问题向量化 → 检索相关片段 → 拼 prompt → AI 生成回答
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;检索方式要按场景选：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;场景&lt;/th&gt;
 &lt;th&gt;推荐方式&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;语义模糊查询&lt;/td&gt;
 &lt;td&gt;向量检索&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;精确关键词匹配&lt;/td&gt;
 &lt;td&gt;全文检索（ES / BM25）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;结构化数据&lt;/td&gt;
 &lt;td&gt;直接 SQL&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;实时状态数据&lt;/td&gt;
 &lt;td&gt;直接调接口&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;生产环境通常用&lt;strong&gt;混合检索&lt;/strong&gt;（向量 + 关键词并行），再加 &lt;strong&gt;Reranker&lt;/strong&gt; 对两路结果重排融合，效果比单一检索稳定得多。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;RAG 效果差的常见原因：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;切片粒度不合适：太大检索不精准，太小上下文断裂&lt;/li&gt;
&lt;li&gt;Embedding 模型语言不匹配：中文内容要用中文模型&lt;/li&gt;
&lt;li&gt;缺 Reranker：向量相似度不等于语义相关，需要二次排序&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id="function-calling--structured-output"&gt;Function Calling / Structured Output
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;解决的问题：&lt;/strong&gt; 默认情况下模型输出自由文本，开发者要从中解析结构化数据很麻烦，而且不稳定。&lt;/p&gt;
&lt;p&gt;Function Calling 让模型直接输出结构化的函数调用参数，或者严格按 JSON Schema 输出。这是开发者在系统里接入 AI 时几乎必用的能力。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;三种形式：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;JSON Mode&lt;/strong&gt;：告诉模型必须输出合法 JSON，但不约束具体字段。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Function Calling&lt;/strong&gt;：你预先定义一组函数和它们的参数 Schema，模型自己判断什么时候调哪个函数，以什么参数调用。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-csharp" data-lang="csharp"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;// 定义函数供模型选择调用&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kt"&gt;var&lt;/span&gt; &lt;span class="n"&gt;tools&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt;&lt;span class="p"&gt;[]&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="n"&gt;Tool&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s"&gt;&amp;#34;get_player_info&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s"&gt;&amp;#34;查询玩家信息&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;type&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="s"&gt;&amp;#34;object&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;properties&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;playerId&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="k"&gt;new&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="n"&gt;type&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="s"&gt;&amp;#34;string&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;description&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="s"&gt;&amp;#34;玩家ID&amp;#34;&lt;/span&gt; &lt;span class="p"&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;})&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;};&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;// 模型判断需要查询玩家时，会返回：&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;// { &amp;#34;name&amp;#34;: &amp;#34;get_player_info&amp;#34;, &amp;#34;arguments&amp;#34;: { &amp;#34;playerId&amp;#34;: &amp;#34;10234&amp;#34; } }&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;// 你的代码执行后，把结果再传回给模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;Structured Outputs&lt;/strong&gt;：最严格的形式，模型输出必须完全符合你指定的 JSON Schema，字段和类型都有保证，不会多也不会少。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;适合使用的场景：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;从非结构化文本中提取信息（日志分析、邮件解析）&lt;/li&gt;
&lt;li&gt;让 AI 决策后直接触发业务逻辑&lt;/li&gt;
&lt;li&gt;任何需要程序化处理 AI 输出的场景&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h3 id="多步骤编排"&gt;多步骤编排
&lt;/h3&gt;&lt;p&gt;AI 作为整个流程的指挥者，自主判断下一步做什么、调哪个工具，直到任务完成。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;用户：&amp;#34;分析上个月的流失情况并发报告给运营&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;AI → 调 GetChurnData(month=3)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;AI → 调 GetChurnByServer()
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;AI 整合数据，生成分析报告
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;AI → 调 SendEmail(to=&amp;#34;运营组&amp;#34;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;Semantic Kernel 的 Plugin 机制就是干这件事的。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="fine-tuning微调vs-rag"&gt;Fine-tuning（微调）vs RAG
&lt;/h3&gt;&lt;p&gt;两者经常被混淆，但解决的是不同问题：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;维度&lt;/th&gt;
 &lt;th&gt;RAG&lt;/th&gt;
 &lt;th&gt;Fine-tuning&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;解决的问题&lt;/td&gt;
 &lt;td&gt;模型不知道你的数据&lt;/td&gt;
 &lt;td&gt;模型不擅长你的任务风格&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据要求&lt;/td&gt;
 &lt;td&gt;文档即可&lt;/td&gt;
 &lt;td&gt;需要大量高质量的输入-输出对&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;更新成本&lt;/td&gt;
 &lt;td&gt;低，随时更新文档&lt;/td&gt;
 &lt;td&gt;高，每次更新需要重新训练&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;适合场景&lt;/td&gt;
 &lt;td&gt;知识库问答、文档检索&lt;/td&gt;
 &lt;td&gt;特定领域语气/格式/专业术语&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;费用&lt;/td&gt;
 &lt;td&gt;低&lt;/td&gt;
 &lt;td&gt;高&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;结论：&lt;/strong&gt; 绝大多数企业场景先上 RAG，Fine-tuning 只在 RAG 效果不够好、且有大量标注数据的情况下考虑。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="五接入方式"&gt;五、接入方式
&lt;/h2&gt;&lt;h3 id="直接调-api"&gt;直接调 API
&lt;/h3&gt;&lt;p&gt;本质就是一个 HTTPS POST，传 prompt，拿结果。简单、可控、成本透明。&lt;/p&gt;
&lt;p&gt;适合的场景：活动文案生成、内容翻译、用户评论分析、客服自动回复、日志摘要生成等固定业务场景。&lt;/p&gt;
&lt;p&gt;如果公司只用一个模型、场景固定，直接封装一个 &lt;code&gt;AiService&lt;/code&gt; 类就够了，不需要引入额外框架。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="semantic-kernel编排框架"&gt;Semantic Kernel（编排框架）
&lt;/h3&gt;&lt;p&gt;微软出品，支持 .NET / Python / Java，对 .NET 技术栈的团队非常友好。&lt;/p&gt;
&lt;p&gt;类比为 AI 领域的 EF Core——屏蔽不同模型间的 API 差异，业务代码面向接口编程，换模型只改配置。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-csharp" data-lang="csharp"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;// Program.cs&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;builder&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;Services&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;AddKernel&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;AddAnthropicChatCompletion&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s"&gt;&amp;#34;claude-sonnet-4-6&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;apiKey&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;// Service 层注入使用&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kt"&gt;var&lt;/span&gt; &lt;span class="n"&gt;result&lt;/span&gt; &lt;span class="p"&gt;=&lt;/span&gt; &lt;span class="k"&gt;await&lt;/span&gt; &lt;span class="n"&gt;kernel&lt;/span&gt;&lt;span class="p"&gt;.&lt;/span&gt;&lt;span class="n"&gt;InvokePromptAsync&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s"&gt;&amp;#34;分析这个玩家的充值行为：{{$input}}&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;);&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;适合场景：多步骤 AI 编排、RAG、需要支持多模型切换的团队项目。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="mcpmodel-context-protocol"&gt;MCP（Model Context Protocol）
&lt;/h3&gt;&lt;p&gt;Anthropic 于 2024 年 11 月发布的开放协议，定义了&amp;quot;AI 如何标准化调用外部工具&amp;rdquo;，现已成为全行业事实标准。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;2025 年 3 月 OpenAI 全面跟进&lt;/li&gt;
&lt;li&gt;2025 年 12 月捐给 Linux 基金会，OpenAI、Google、微软均为成员&lt;/li&gt;
&lt;li&gt;目前 10,000+ MCP Server，月下载量 9700 万&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;AI 客户端（Claude / Cursor / Antigravity）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓ MCP 协议
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; MCP Server ← 你来实现这一层
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 你的业务系统 / 数据库 / 内部接口
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;MCP Server 是独立进程，和现有系统完全解耦，任何语言都能写。写好之后，所有支持 MCP 的 AI 客户端都能调用你的系统。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;和直接调 API 的本质区别：&lt;/strong&gt; 直接 API 是&amp;quot;你的代码决定每一步，AI 只是执行节点&amp;quot;；MCP 是&amp;quot;AI 自己决定走几步、调哪个工具&amp;quot;——控制权从代码转移到了模型。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="本地部署ollama"&gt;本地部署（Ollama）
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;解决的问题：&lt;/strong&gt; 数据不能出公司网络，或者不想持续付 API 费用。&lt;/p&gt;
&lt;p&gt;Ollama 是一个工具，把主流开源模型打包成可以在本地直接运行的形式，接口和 OpenAI API 完全兼容，切换成本接近零。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 安装后一行命令拉模型并启动&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;ollama run qwen2.5:14b
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 用标准 OpenAI 格式调用本地模型&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;curl http://localhost:11434/v1/chat/completions &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; -d &lt;span class="s1"&gt;&amp;#39;{&amp;#34;model&amp;#34;:&amp;#34;qwen2.5:14b&amp;#34;,&amp;#34;messages&amp;#34;:[{&amp;#34;role&amp;#34;:&amp;#34;user&amp;#34;,&amp;#34;content&amp;#34;:&amp;#34;你好&amp;#34;}]}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;可运行的主流模型：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;参数量&lt;/th&gt;
 &lt;th&gt;最低显存&lt;/th&gt;
 &lt;th&gt;特点&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;Qwen2.5&lt;/td&gt;
 &lt;td&gt;7B / 14B&lt;/td&gt;
 &lt;td&gt;8GB / 16GB&lt;/td&gt;
 &lt;td&gt;中文效果好，阿里出品&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;DeepSeek-R1&lt;/td&gt;
 &lt;td&gt;7B / 14B&lt;/td&gt;
 &lt;td&gt;8GB / 16GB&lt;/td&gt;
 &lt;td&gt;推理能力强，开源&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Llama 3.3&lt;/td&gt;
 &lt;td&gt;70B&lt;/td&gt;
 &lt;td&gt;48GB+&lt;/td&gt;
 &lt;td&gt;Meta 出品，综合能力强&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Mistral&lt;/td&gt;
 &lt;td&gt;7B&lt;/td&gt;
 &lt;td&gt;8GB&lt;/td&gt;
 &lt;td&gt;速度快，适合简单任务&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;适合的场景：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;处理公司内部敏感数据（数据库连接串、用户信息）&lt;/li&gt;
&lt;li&gt;代码补全类任务（质量接近商业模型）&lt;/li&gt;
&lt;li&gt;高频调用、成本敏感的场景（本地跑不计 token 费用）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不适合的场景：&lt;/strong&gt; 复杂推理、多语言翻译、需要最新知识——这些目前本地模型和顶尖商业模型还有明显差距。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="六多模态"&gt;六、多模态
&lt;/h2&gt;&lt;p&gt;多模态指模型能同时处理多种类型的数据。目前最成熟的是&lt;strong&gt;文本 + 图像&lt;/strong&gt;，主流模型（GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro）都已全面支持。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;实际能做什么：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;截图转文字&lt;/strong&gt;：把 UI 截图发给 AI，让它描述问题或生成对应代码&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;图表分析&lt;/strong&gt;：把折线图、柱状图截图发给 AI，它能读懂数据并给出分析&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文档图片解析&lt;/strong&gt;：扫描件、截图中的表格、合同内容提取，不需要 OCR 前处理&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;设计稿转代码&lt;/strong&gt;：把 UI 设计图发给 AI，让它生成 HTML/CSS 框架（不是完美的，但能省很多时间）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;在代码里调用视觉能力：&lt;/strong&gt;&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="nn"&gt;anthropic&lt;/span&gt;&lt;span class="o"&gt;,&lt;/span&gt; &lt;span class="nn"&gt;base64&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="k"&gt;with&lt;/span&gt; &lt;span class="nb"&gt;open&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;screenshot.png&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;rb&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt; &lt;span class="k"&gt;as&lt;/span&gt; &lt;span class="n"&gt;f&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;img_data&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;base64&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;standard_b64encode&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;f&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;read&lt;/span&gt;&lt;span class="p"&gt;())&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;decode&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;utf-8&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;client&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;anthropic&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;Anthropic&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;message&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;client&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;create&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;claude-sonnet-4-6&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;messages&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="p"&gt;[{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;image&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;source&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;base64&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;media_type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;image/png&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;data&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;img_data&lt;/span&gt;&lt;span class="p"&gt;}},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;text&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;text&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;这个页面的布局有什么问题？&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;}]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;当前局限：&lt;/strong&gt; 视频理解在部分模型上支持，但效果不稳定；实时音频目前只有 GPT-4o 的 Realtime API 支持，成本较高。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="七成本控制"&gt;七、成本控制
&lt;/h2&gt;&lt;p&gt;用 API 很容易不知不觉花很多钱，几个实用的省钱方法：&lt;/p&gt;
&lt;h3 id="模型路由按任务难度选模型"&gt;模型路由（按任务难度选模型）
&lt;/h3&gt;&lt;p&gt;不是所有任务都需要最贵的模型。建立一个简单的路由规则，根据任务复杂度选不同模型：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;任务类型&lt;/th&gt;
 &lt;th&gt;推荐模型&lt;/th&gt;
 &lt;th&gt;大约成本比&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;简单分类、关键词提取&lt;/td&gt;
 &lt;td&gt;Claude Haiku / GPT-4o-mini&lt;/td&gt;
 &lt;td&gt;1x&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;普通问答、代码补全&lt;/td&gt;
 &lt;td&gt;Claude Sonnet / GPT-4o&lt;/td&gt;
 &lt;td&gt;10x&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;复杂推理、长文档分析&lt;/td&gt;
 &lt;td&gt;Claude Opus / o3&lt;/td&gt;
 &lt;td&gt;50x+&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="prompt-缓存cache"&gt;Prompt 缓存（Cache）
&lt;/h3&gt;&lt;p&gt;如果你每次请求都带着相同的系统提示词或大段文档，Anthropic 和 OpenAI 都支持 Prompt Cache——相同内容只计算一次，后续请求的这部分最多打 9 折，最高可省 90% 的输入 token 费用。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# Anthropic Cache Control 示例&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;messages&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="p"&gt;[{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;text&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;text&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;very_long_system_doc&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;# 长文档&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;cache_control&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;ephemeral&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt; &lt;span class="c1"&gt;# 标记为可缓存&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;{&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;text&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;text&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="n"&gt;user_question&lt;/span&gt;&lt;span class="p"&gt;}&lt;/span&gt; &lt;span class="c1"&gt;# 每次变化的问题&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="p"&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;}]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="batch-api"&gt;Batch API
&lt;/h3&gt;&lt;p&gt;对于不需要实时响应的任务（比如批量分析日志、批量生成文案），使用 Batch API 可以享受约 50% 的价格折扣，代价是处理时间延迟到几小时内完成。&lt;/p&gt;
&lt;h3 id="控制-output-长度"&gt;控制 Output 长度
&lt;/h3&gt;&lt;p&gt;输出 token 的价格通常是输入的 3～5 倍。明确告诉模型输出长度：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;请用不超过 3 句话回答，不要有多余解释。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id="token-计算工具"&gt;Token 计算工具
&lt;/h3&gt;&lt;p&gt;OpenAI 和 Anthropic 都提供 Tokenizer 工具，可以在发送前估算费用，避免意外超支。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="八工具生态"&gt;八、工具生态
&lt;/h2&gt;&lt;h3 id="llamaindex"&gt;LlamaIndex
&lt;/h3&gt;&lt;p&gt;专注 RAG 场景的 Python 框架，文档处理、向量检索、多路检索融合都做得很深。上手快，适合快速搭 RAG 原型。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 建索引（离线，跑一次）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;documents&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;SimpleDirectoryReader&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;./docs&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;load_data&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;index&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;VectorStoreIndex&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;from_documents&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;documents&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 查询（在线，每次请求）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;query_engine&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;index&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;as_query_engine&lt;/span&gt;&lt;span class="p"&gt;()&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;response&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;query_engine&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;query&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;这个接口的限流规则是什么？&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;向量库选型：&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;选项&lt;/th&gt;
 &lt;th&gt;适合情况&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;PostgreSQL + pgvector&lt;/td&gt;
 &lt;td&gt;已有 PG，成本最低，省事&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Qdrant&lt;/td&gt;
 &lt;td&gt;自部署，高性能，适合大规模&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Pinecone&lt;/td&gt;
 &lt;td&gt;不想运维，直接用云托管&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h3 id="openclaw"&gt;OpenClaw
&lt;/h3&gt;&lt;p&gt;2025 年底爆火的开源 AI Agent，60 天内积累 24.7 万 GitHub Star。核心理念是：&lt;strong&gt;以消息平台作为操作界面，让 AI 替你在本机或服务器上自主执行任务&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;你不需要打开任何 App，直接在 Telegram、Slack、微信里发一条消息，AI 就能完成文件操作、调接口、发邮件、查数据——完全跑在你自己的机器上，数据不出去。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;支持 50+ 消息平台：&lt;/strong&gt; WhatsApp、Telegram、Slack、Discord、微信（WeCom）、钉钉、飞书、Teams、Signal、iMessage……&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;两种能力扩展机制：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Skills（技能包）&lt;/strong&gt;：结构化的&amp;quot;操作手册&amp;quot;，明确告诉 AI 在特定场景下按什么顺序调哪些工具。社区已有 100+ 预置 Skills，可以自己写，甚至让 AI 来写新的 Skill&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;MCP&lt;/strong&gt;：对外连接标准协议，把公司内部系统接进来。Skills 解决&amp;quot;什么时候怎么调&amp;quot;，MCP 解决&amp;quot;能不能调&amp;quot;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;典型使用场景：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;在 Telegram 里发&amp;quot;帮我拉今天的错误日志，整理成表格&amp;quot;&lt;/li&gt;
&lt;li&gt;定时任务：每天早上自动查数据库、生成日报、发给指定群&lt;/li&gt;
&lt;li&gt;接入公司内部系统，变成团队共用的 AI 助手机器人&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;部署：&lt;/strong&gt; 支持 Windows / macOS / Linux 本地部署，也支持阿里云、腾讯云一键部署，国内中文社区资料丰富。底层默认接 Claude，也支持 GPT、DeepSeek、Qwen。&lt;/p&gt;
&lt;p&gt;2026 年 2 月原作者加入 OpenAI，项目移交开源基金会，仍在活跃维护。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;MiMo Claw（小米）&lt;/strong&gt; 是同类产品，深度接入小米生态，一键部署，适合已在用小米设备的用户。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="九企业级-ai-应用场景"&gt;九、企业级 AI 应用场景
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;场景&lt;/th&gt;
 &lt;th&gt;推荐方案&lt;/th&gt;
 &lt;th&gt;备注&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;智能客服&lt;/td&gt;
 &lt;td&gt;直接调 API + RAG&lt;/td&gt;
 &lt;td&gt;AI 先回答，答不了查知识库，再不行转人工&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;活动文案生成&lt;/td&gt;
 &lt;td&gt;直接调 API&lt;/td&gt;
 &lt;td&gt;给模板和关键词，批量生成&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;内部知识库问答&lt;/td&gt;
 &lt;td&gt;RAG&lt;/td&gt;
 &lt;td&gt;开发文档、运营手册、配置说明&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;代码 Review&lt;/td&gt;
 &lt;td&gt;直接调 API&lt;/td&gt;
 &lt;td&gt;提交 PR 时触发，自动给出评审意见&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;日志分析 / 排障&lt;/td&gt;
 &lt;td&gt;直接调 API + Structured Output&lt;/td&gt;
 &lt;td&gt;从非结构化日志提取关键信息&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数据分析&lt;/td&gt;
 &lt;td&gt;直接调 API + SQL&lt;/td&gt;
 &lt;td&gt;自然语言转 SQL，结果解释成人话&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;合同 / 文档审查&lt;/td&gt;
 &lt;td&gt;RAG&lt;/td&gt;
 &lt;td&gt;检索相关条款 + AI 比对分析&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;跨系统自动化任务&lt;/td&gt;
 &lt;td&gt;多步骤编排 + MCP&lt;/td&gt;
 &lt;td&gt;自动拉数据、生成报告、发通知&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;图片内容审核&lt;/td&gt;
 &lt;td&gt;多模态 API&lt;/td&gt;
 &lt;td&gt;截图、UGC 图片内容检测&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;游戏内容生成&lt;/td&gt;
 &lt;td&gt;直接调 API&lt;/td&gt;
 &lt;td&gt;NPC 对话、任务描述、世界观文本&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="十ai-编码工具"&gt;十、AI 编码工具
&lt;/h2&gt;
 &lt;blockquote&gt;
 &lt;p&gt;模型能力溢出之后，竞争从&amp;quot;谁的模型更聪明&amp;quot;转移到&amp;quot;怎么把模型能力接进工作流&amp;quot;。AI 编码工具是开发者目前最直接感受到生产力变化的地方。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;h3 id="-使用前必看翻墙说明"&gt;⚠️ 使用前必看：翻墙说明
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;Claude 系（claude.ai、Claude Code）：必须虚拟网卡模式&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;普通代理（SSR、V2Ray 仅配系统代理）大多数情况下无法使用，Claude 会检测 IP 质量。必须使用 &lt;strong&gt;TUN 模式&lt;/strong&gt;（虚拟网卡），让所有流量走网卡层，比如 Clash Verge 开启 TUN 模式，或者使用 Warp。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;其余工具：普通代理即可&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Cursor、GitHub Copilot、Antigravity、Codex 对代理要求没那么严，配置好系统代理即可。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="ide-派"&gt;IDE 派
&lt;/h3&gt;&lt;h4 id="github-copilot"&gt;GitHub Copilot
&lt;/h4&gt;&lt;p&gt;最老牌的 AI 编码助手，GitHub 出品，深度集成进 VS Code、JetBrains 全家桶、Visual Studio，不需要换编辑器。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;行内补全&lt;/strong&gt;：预测下一行或下一段，Tab 接受&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Copilot Chat&lt;/strong&gt;：侧边栏对话，解释代码、找 Bug、生成测试&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Copilot Edits&lt;/strong&gt;：跨多文件批量修改&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Copilot Agent&lt;/strong&gt;：自主完成较复杂任务，可以发 PR&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;底层以 GPT 系列为主，近期加入 Claude 和 Gemini 可选。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;价格：&lt;/strong&gt; 免费版（2000 次补全 + 50 次 Chat）/ Pro $10/月 / Pro+ $39/月 / 学生免费
&lt;strong&gt;翻墙：&lt;/strong&gt; 普通代理即可&lt;/p&gt;
&lt;hr&gt;
&lt;h4 id="cursor"&gt;Cursor
&lt;/h4&gt;&lt;p&gt;最早把 AI 深度集成进编辑器的产品，2024 年爆火，目前是这个赛道标杆。基于 VS Code fork，迁移成本接近零。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Tab 补全&lt;/strong&gt;：预测整段要改的内容，改了函数签名，调用处参数一并改好&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Cmd+K&lt;/strong&gt;：选中代码 + 描述，直接内联修改&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Chat 侧边栏&lt;/strong&gt;：带完整代码库索引，跨文件理解逻辑&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;底层模型可选：Claude、GPT-4o、DeepSeek 都支持。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;价格：&lt;/strong&gt; 免费版 / Pro $20/月 / Pro+ $60/月（积分制，月积分 = 套餐价美元数）
&lt;strong&gt;翻墙：&lt;/strong&gt; 普通代理即可&lt;/p&gt;
&lt;hr&gt;
&lt;h4 id="google-antigravity"&gt;Google Antigravity
&lt;/h4&gt;&lt;p&gt;Google 2025 年 11 月随 Gemini 3 发布，VS Code fork，理念比 Cursor 更激进。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Editor 模式&lt;/strong&gt;：类似 Cursor，Tab 补全 + 内联改 + 侧边 Agent&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Manager 模式&lt;/strong&gt;：同时派发多个 Agent 并行处理不同任务，统一监控&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;AI 拥有直接操作文件系统、终端、内置浏览器的权限，同时支持 Claude 和 GPT。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;价格：&lt;/strong&gt; 免费版（重度使用 2-3 小时触达限额，7 天刷新）/ Pro $20/月 / Ultra $250/月
&lt;strong&gt;翻墙：&lt;/strong&gt; 普通代理即可&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="cli-agent-派"&gt;CLI Agent 派
&lt;/h3&gt;
 &lt;blockquote&gt;
 &lt;p&gt;你说清楚要做什么，AI 自己去读代码、改文件、跑命令，完事汇报。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;h4 id="claude-code"&gt;Claude Code
&lt;/h4&gt;&lt;p&gt;Anthropic 出品，目前公认 Agent 能力最强的 CLI 工具。&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;claude &lt;span class="s2"&gt;&amp;#34;找出所有数据库查询超过 500ms 的接口，加上耗时日志并写单元测试&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;ul&gt;
&lt;li&gt;完整的文件读写和终端执行权限&lt;/li&gt;
&lt;li&gt;擅长跨文件理解和大范围改动&lt;/li&gt;
&lt;li&gt;支持 MCP，可接入自定义工具&lt;/li&gt;
&lt;li&gt;SSH 进服务器也能用&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;价格：&lt;/strong&gt; Claude Pro $20/月 起（无免费版），重度用 Max $100/$200/月；也可 API Key 按 token 计费
&lt;strong&gt;翻墙：&lt;/strong&gt; ⚠️ 必须 TUN 模式虚拟网卡&lt;/p&gt;
&lt;hr&gt;
&lt;h4 id="codexopenai"&gt;Codex（OpenAI）
&lt;/h4&gt;&lt;p&gt;OpenAI 2025 年 4 月发布，沙箱隔离运行，多任务并行，token 效率约为 Claude Code 的 4 倍。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;价格：&lt;/strong&gt; 工具开源免费，走 ChatGPT Plus（$20/月）或 OpenAI API 额度
&lt;strong&gt;翻墙：&lt;/strong&gt; 普通代理即可&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id="综合对比"&gt;综合对比
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;工具&lt;/th&gt;
 &lt;th&gt;类型&lt;/th&gt;
 &lt;th&gt;价格&lt;/th&gt;
 &lt;th&gt;翻墙要求&lt;/th&gt;
 &lt;th&gt;亮点&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GitHub Copilot&lt;/td&gt;
 &lt;td&gt;IDE 插件&lt;/td&gt;
 &lt;td&gt;免费 / $10 / $39&lt;/td&gt;
 &lt;td&gt;普通代理&lt;/td&gt;
 &lt;td&gt;不换编辑器，企业管控友好&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Cursor&lt;/td&gt;
 &lt;td&gt;IDE（VS Code fork）&lt;/td&gt;
 &lt;td&gt;免费 / $20 / $60&lt;/td&gt;
 &lt;td&gt;普通代理&lt;/td&gt;
 &lt;td&gt;Tab 补全体验最好，主流首选&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Antigravity&lt;/td&gt;
 &lt;td&gt;IDE（VS Code fork）&lt;/td&gt;
 &lt;td&gt;免费 / $20&lt;/td&gt;
 &lt;td&gt;普通代理&lt;/td&gt;
 &lt;td&gt;多 Agent 并行，最激进&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Claude Code&lt;/td&gt;
 &lt;td&gt;CLI Agent&lt;/td&gt;
 &lt;td&gt;$20~$200/月&lt;/td&gt;
 &lt;td&gt;⚠️ 必须虚拟网卡&lt;/td&gt;
 &lt;td&gt;Agent 能力最强，支持 MCP&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Codex&lt;/td&gt;
 &lt;td&gt;CLI Agent&lt;/td&gt;
 &lt;td&gt;API 按量 / $20+&lt;/td&gt;
 &lt;td&gt;普通代理&lt;/td&gt;
 &lt;td&gt;token 效率高，沙箱隔离&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;两个流派不互斥：日常用 Cursor，复杂重构或批量任务丢给 Claude Code。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="十一关键判断什么时候用什么"&gt;十一、关键判断：什么时候用什么
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;直接调 API 就够了，当：&lt;/strong&gt;
业务场景固定、输入输出明确、公司只用一个模型、团队规模小不需要统一抽象。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;需要引入 Semantic Kernel，当：&lt;/strong&gt;
需要多步骤编排、做 RAG、在多模型间切换、有多个团队共用 AI 能力。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;需要 MCP，当：&lt;/strong&gt;
想让 AI 主动操作你的系统、想让 Cursor / Claude Desktop 直接访问内部数据、在构建 Agent 类产品。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;需要 RAG，当：&lt;/strong&gt;
AI 需要访问内部文档或私有知识库、不想训练模型、回答结果需要能溯源到具体文档。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;用本地部署（Ollama），当：&lt;/strong&gt;
数据不能出公司网络、高频调用成本敏感、对推理质量要求不是极高。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;用多模态，当：&lt;/strong&gt;
需要处理图片内容、截图分析、UI 稿转代码、图表数据提取。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="十二现状与趋势"&gt;十二、现状与趋势
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;已经发生的：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MCP 在 16 个月内成为 AI 工具调用的事实标准，速度远超以往任何协议&lt;/li&gt;
&lt;li&gt;AI 编码工具从&amp;quot;补全代码&amp;quot;进化到&amp;quot;自主完成任务&amp;quot;，Cursor 的 Tab 到 Claude Code 的 Agent 只用了不到两年&lt;/li&gt;
&lt;li&gt;多模态从实验功能变成了主流模型的标配能力&lt;/li&gt;
&lt;li&gt;模型各家差距在收窄，工具层和工程实践的差异越来越重要&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;正在发生的：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多 Agent 并行协作（一个任务拆给多个 AI 同时跑）从实验室走向产品&lt;/li&gt;
&lt;li&gt;&amp;ldquo;Vibe Coding&amp;rdquo;——用自然语言描述，让 AI 生成整个功能模块——正在成为部分开发者的主力工作方式&lt;/li&gt;
&lt;li&gt;本地部署模型质量快速追赶商业 API，轻量任务本地跑已经够用&lt;/li&gt;
&lt;li&gt;各大云厂商开始把 AI Agent 能力直接内置进开发平台&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;还没解决的：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;真正落地的企业级 AI 产品依然不多，大部分还在 POC 阶段&lt;/li&gt;
&lt;li&gt;生产环境的效果稳定性、成本控制、幻觉处理依然是难点&lt;/li&gt;
&lt;li&gt;AI 有了文件和终端权限之后，安全和误操作风险如何防控&lt;/li&gt;
&lt;li&gt;长上下文场景下的效果一致性：窗口大了不代表记忆力变好&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>