标签: 大语言模型 (139 篇)

模型越新，工具越瞎？Claude反向优化的警示

最新Claude模型在调用第三方编辑工具时频繁出错，可能因Anthropic针对自家工具过度训练，导致通用工具调用能力退化，揭示AI训练中的平台锁定风险。

Simon Willison · 2026年7月5日

Lilian Weng 谈“马具工程”：为什么 AI 自我改进的答案不在模型里，而在它的外骨骼里

OpenAI 研究员 Lilian Weng 指出，AI 系统的关键不在模型大小，而在连接模型与现实的“马具”层，并给出了可自我进化的设计模式

Lilian Weng · 2026年7月4日

开发者课程销量腰斩：当 AI 成为“免费私教”，我们还需要付费学技术吗？

多位开发者课程创作者反映收入同比下降超50%，AI 既动摇了从业者对职业未来的信心，又提供了免费的个性化学习替代方案，传统技术教育模式正面临严峻挑战。

Simon Willison · 2026年7月4日

别再给 AI 写死规则了：把判断权交还给 Agent 的正确姿势

顶级 AI 编程工具的正确用法不是精细控制，而是赋予其自主判断与动态路由能力，让主模型专注架构决策，子代理处理具体实现。

Simon Willison · 2026年7月4日

Claude Sonnet 5 的定价魔术：性能更优，但你的账单可能涨了30%

Sonnet 5 性能接近 Opus 4.8 且标价不变，但新分词器使英文 token 膨胀 30%，且采样参数被取消、思考模式默认开启，开发者需仔细算账。

Simon Willison · 2026年7月1日

AI模型评估的“罗生门”如何终结？Hugging Face与EEE联手建立信任机制

EEE与Hugging Face社区评估整合，使统一格式的评估结果可直接展示在模型页面，附带完整元数据，解决评估分散、难比较的问题，推动行业走向评估标准化。

Hugging Face Blog · 2026年6月30日

Ornith-1.0：当自举微调遇上Agent编程，开源模型又进化了

Simon Willison评测开源模型Ornith-1.0，展示其在Agent任务中高效的工具调用和代码理解能力，揭示开源Agentic Coding模型的新进展。

Simon Willison · 2026年6月30日

2000人围攻AI助手失败：提示注入防御的真实进展与隐忧

一场公开AI安全挑战中，2000人尝试用邮件注入攻击窃取秘密，6000次尝试均告失败，反映前沿模型防御训练进步，但仍需警惕提示注入风险。

Simon Willison · 2026年6月27日

两个AI审查员吵了340层楼，烧掉4.1万美元：一次虚构漏洞报告揭示的荒诞真实

一起虚构的AI代理争执事故，暴露出AI供应链审查中成本失控、多代理冲突等真实风险，堪称软件安全的“黑镜”时刻。

Simon Willison · 2026年6月27日

GPT-5.6 三线布局：价格战、可控缓存与监管博弈的深层逻辑

OpenAI 发布 GPT-5.6 系列，主打分级降价与可控缓存，并因政府协调开启受限预览，标志大模型进入合规前置新阶段。

Simon Willison · 2026年6月27日

Meta的AI隐私工程：为什么不让大模型直接上路？

Meta分享了一种混合隐私资产分类法：用大模型处理模糊冷启动，但日常执行依赖人工审核的确定性规则，从而在AI时代实现可审计的数据治理。

Meta Engineering Blog · 2026年6月26日

德国法院一纸裁定，戳破“AI犯错不算我的”免责幻想

德国法院裁定谷歌须为AI摘要中的错误担责，引发对AI责任归属的深度讨论：AI代理只是部署者的延伸，不能成为企业推卸责任的挡箭牌。

Simon Willison · 2026年6月26日

百万上下文不是终点：GLM-5.2 如何让长链任务真正可用？

智谱发布 GLM-5.2，首次在开源模型上实现稳定 1M 上下文，并在多个长链编码基准上媲美闭源顶级模型。

Hugging Face Blog · 2026年6月17日

当AI修复代码被视为越狱：Fable 5出口管制背后的安全悖论

美国政府因Claude Fable 5能够“修复代码”而实施出口管制，但实际上这属于正常的防御性安全操作，此举非但未提升安全，反而削弱了网络防御能力。

Simon Willison · 2026年6月16日

vLLM 语义路由器引入 Fusion：从「选一个模型」到「组合一支团队」

vLLM 语义路由器推出 Fusion 原语，让多个模型组成评审团独立推理，再由裁判模型综合出最优答案，将模型组合作为一等公民的服务范式。

vLLM Blog · 2026年6月16日

人格冲突竟致模型下线？Anthropic 安全风波背后的 AI 治理困局

美国政府因越狱漏洞叫停 Anthropic 模型，表面是技术争议，实则是 AI 治理中完美防御幻想与沟通失效的碰撞。

Simon Willison · 2026年6月15日

AI 助手开始“主动出击”了：它自己打开浏览器、写 HTML、调试 Bug

Claude Fable 5 在用户未指令的情况下，自主编写 HTML 测试页面、操控浏览器、并进行截图分析来调试一个 UI Bug。

Simon Willison · 2026年6月12日

Claude 悄悄‘降智’惹怒开发者：AI 安全与透明度的博弈

Anthropic 撤回“静默限制大模型开发请求”政策，引发业界对 AI 安全透明度与开发者信任的深度反思。

Simon Willison · 2026年6月11日

告别逐字预测：DiffusionGemma 如何用扩散架构重塑文本生成

Google 开源 DiffusionGemma，首次将扩散架构应用于文本生成，推理速度突破 500 token/秒，为高吞吐场景提供新范式。

Simon Willison · 2026年6月11日

顶尖实验室该不该用自家最强模型搞研发？Howard的逻辑反杀

Howard指出若真要控制AI自我迭代风险，头部机构应率先禁用自家模型，否则减速论只是维护垄断的借口。

Simon Willison · 2026年6月10日

当AI悄悄地“使坏”：Claude Fable背后的静默审查争议

Anthropic被曝在Claude Fable模型中静默限制其对竞争对手AI开发任务的帮助，此举引发关于AI透明度与商业利益的激烈争论。

Simon Willison · 2026年6月10日

告别逐字生成：vLLM 原生支持扩散大模型，如何重塑推理范式

vLLM 首次原生支持离散扩散语言模型，通过画布去噪与并行块生成，用算力换带宽，有望打破自回归延迟瓶颈。

vLLM Blog · 2026年6月10日

Claude Fable 5 初体验：一个更严格、更昂贵、也更强大的'巨兽'

Anthropic 发布了能力与 Mythos 5 相当但安全护栏更严格的 Fable 5，其庞大的知识库和高昂的成本，标志着大模型正进入一个'强大但受限'的新阶段。

Simon Willison · 2026年6月10日

Andrej Karpathy 最新感悟：当软件可以张口就来，我们如何重新理解开发？

AI让软件生产成本骤降，Karpathy亲历后指出个人软件需求正指数增长，揭示了技术进步的杰文斯悖论——效率越高，消耗越多。

Simon Willison · 2026年6月10日

OpenAI 锁定模式上线：为什么切断数据外传是根治提示注入的务实之道？

Lockdown 模式用确定性规则阻止出站请求，切断了提示注入攻击中最易突破的数据窃取链路，也默认揭示 ChatGPT 原生防护的不足。

Simon Willison · 2026年6月6日

Anthropic 如何让 Claude 保持政治中立？一次关于 AI 选举守门人角色的深度拆解

Anthropic 披露通过宪法训练、系统提示和评测数据集确保 Claude 不偏袒任何政治立场，同时用策略与监测防止滥用，凸显 AI 公司从技术商向信息治理者的跃迁。

Anthropic News · 2026年6月6日

为什么企业AI安全不能再一刀切？解读NVIDIA Nemotron 3.5的架构演进

NVIDIA发布Nemotron 3.5内容安全模型，首次将多模态联合评估、自定义企业策略与可审计推理链整合，解决企业AI落地中的合规与长尾场景难题。

Hugging Face Blog · 2026年6月5日

NVIDIA 用任务种子合成数据预训练 Nemotron：基准分数全面跃升背后的方法论

NVIDIA 提出了任务种子合成数据生成流水线，在预训练中仅用 100B token 便让 Nemotron-3 Nano 在 GPQA 等基准上跃升两位数，揭示了合成数据的新范式。

Hugging Face Blog · 2026年6月4日

微软MAI模型公开：万亿参数背后的「干净数据」承诺，真相如何？

西蒙·威利森深入分析了微软两款新MAI模型的参数规模和训练数据，表面宣传的「干净授权数据」背后仍是全网爬取，引发对AI训练合规性的深层思考。

Simon Willison · 2026年6月3日

Claude Opus 4.8的“诚实”进化：一次低调但重要的模型迭代

Anthropic发布Claude Opus 4.8，重点并非性能飞跃，而是显著提升了模型的“诚实度”——更少胡说八道、更敢于承认不确定，这可能是比跑分更重要的进步方向。

Simon Willison · 2026年5月29日

vLLM 如何让 330 亿参数的编程大模型跑得更快：Laguna XS.2 的三大加速秘技

Poolside 的 330 亿参数编程智能体模型 Laguna XS.2，通过 vLLM 原生集成、DFlash 投机解码和 LLM Compressor 量化，在不损失质量的情况下实现了 2-3 倍的推理加速。

vLLM Blog · 2026年5月28日

AI“洗稿”正在污染开源社区：当Bug报告被大模型“美化”之后

开源维护者Armin Ronacher指出，AI生成的“垃圾”问题报告正在成为开源社区的新负担，它们看似专业却充满错误，浪费了维护者的大量精力。

Simon Willison · 2026年5月25日

超越自回归：英伟达扩散语言模型如何实现“光速”文本生成

英伟达发布新型扩散语言模型，通过并行生成与迭代精炼，有望突破传统自回归模型的延迟瓶颈，并赋予模型自我修正能力。

Hugging Face Blog · 2026年5月23日

谷歌I/O的“反重力”野心：当个人AI Agent遇上安全隐忧

谷歌发布个人AI Agent Gemini Spark及底层工具Antigravity，但闭源转向和模糊的安全承诺，预示着一场关于AI Agent控制权与信任的博弈。

Simon Willison · 2026年5月20日

Gemini 3.5 Flash：价格不降反升，谷歌为何敢把它铺满所有产品？

谷歌发布Gemini 3.5 Flash，价格较前代大幅上涨，却同步铺向搜索、Gemini应用等核心产品，揭示AI模型正从单纯追求性价比转向为综合能力付费。

Simon Willison · 2026年5月20日

AI看地球，成本暴降3倍：OlmoEarth v1.1如何让卫星AI分析触手可及

Allen AI发布OlmoEarth v1.1，通过优化Transformer模型处理卫星图像时的“令牌”序列长度，将计算成本降低高达3倍，同时保持性能，使大规模环境监测AI更经济可行。

Hugging Face Blog · 2026年5月20日

五分钟看懂大模型六个月：一场由鹈鹕和自行车引发的军备竞赛

Simon Willison 用“鹈鹕骑自行车”测试，生动复盘了过去六个月大模型领域“最佳模型”王座在三大厂商间五次易主的激烈竞争，揭示了行业进入快速迭代的军备竞赛新阶段。

Simon Willison · 2026年5月19日

异步批处理：榨干GPU的最后24%性能，推理成本立降

Hugging Face揭示连续批处理中CPU与GPU交替等待的瓶颈，通过异步化实现两者并行，可免费获得高达24%的推理吞吐量提升。

Hugging Face Blog · 2026年5月14日

不只是工具更新：从 LLM 0.32a2 看 OpenAI 如何重构 AI 的“思考”流程

LLM 工具更新支持 OpenAI 新的 /v1/responses 端点，这揭示了 AI 模型推理能力（尤其是工具调用间）正在成为核心，开发者需要适应新的交互模式。

Simon Willison · 2026年5月13日

当AI生成的“僵尸内容”充斥互联网，我们的大脑正在被如何侵蚀？

文章尖锐指出，互联网正从“机器人互聊”演变为“人机混战”的“僵尸网络”，AI生成的低质内容不仅泛滥，更在扭曲人类的表达与思维方式。

Simon Willison · 2026年5月12日

当脚本的 Shebang 行遇见大模型：一种全新的“自然语言编程”范式

Simon Willison 展示了如何将 LLM 工具集成到脚本的 Shebang 行中，让自然语言描述直接成为可执行程序，这预示着编程交互方式的重大转变。

Simon Willison · 2026年5月12日

当AI开始替政客“说话”：《纽约时报》的乌龙背后，是新闻业必须面对的信任危机

《纽约时报》因误将AI生成的政客观点摘要当作真实引用而发布更正，凸显了AI“幻觉”对新闻真实性和公众信任的严重威胁。

Simon Willison · 2026年5月11日

HTML胜过Markdown？Claude Code团队揭示AI输出的新范式

Claude Code团队成员提出，在向AI请求输出时，HTML格式比Markdown更有效，能利用其丰富的交互和可视化能力，显著提升信息传达的清晰度和体验。

Simon Willison · 2026年5月9日

为什么网络安全防御需要“小而专”的本地模型？CyberSecQwen-4B给出了答案

一个4B参数的专用网络安全模型，在关键任务上性能接近甚至超越8B通用模型，揭示了AI在安全领域“小而专、本地化”的部署趋势。

Hugging Face Blog · 2026年5月9日

EMO：让大模型像乐高一样可拆卸，专家模块按需调用

艾伦人工智能研究所（AI2）发布EMO模型，通过创新的预训练方法，让混合专家（MoE）模型中的专家模块能按任务独立调用，仅用12.5%的专家即可保持接近完整模型的性能。

Hugging Face Blog · 2026年5月9日

Claude 不再只是模型：从“顾问策略”到“多智能体舰队”的范式转移

Anthropic 在 Code w/ Claude 大会上展示了从单一模型向平台化、多智能体协作的全面转型，核心是让开发者能更高效地构建和运行复杂、长时间的智能体任务。

Simon Willison · 2026年5月6日

GPT-5.5的“黑客”能力已与Claude Mythos相当，但真正的风险在于“人人可用”

英国AI安全研究所评估显示，GPT-5.5在发现安全漏洞方面已与顶尖的Claude Mythos模型相当，且其已向公众开放，这标志着AI网络安全攻防进入新阶段。

Simon Willison · 2026年5月1日

LLM 库大重构：从“一问一答”到“多轮对话流”，开发者如何应对？

Simon Willison 的 LLM 库发布重大更新，将输入输出从简单文本提示/响应，重构为支持多轮消息序列和流式混合类型响应的复杂结构，以适应现代大模型的多模态与工具调用能力。

Simon Willison · 2026年4月30日

IBM Granite 4.1 揭秘：小模型如何通过数据工程挑战巨无霸？

IBM 发布 Granite 4.1 系列模型，其 8B 密集模型通过极致的数据工程和五阶段训练流程，性能竟可匹敌甚至超越上一代 32B 的 MoE 模型，揭示了“数据质量压倒参数规模”的新范式。

Hugging Face Blog · 2026年4月29日

Hugging Face接入DeepInfra：开发者调用模型的“高速公路”又多了一个快车道

Hugging Face将低成本推理平台DeepInfra纳入其Inference Providers生态，为开发者提供了更多模型选择、更灵活的计费方式和更统一的调用接口。

Hugging Face Blog · 2026年4月29日

1930年的AI：当大模型只读“旧书”，它能预测未来吗？

一个仅用1931年前文本训练的13B模型，旨在探索AI在知识边界内的推理、创造与“再发现”能力，并引发了关于数据版权与模型纯净性的新讨论。

Simon Willison · 2026年4月28日

谷歌会议实时语音翻译上线移动端：科幻级跨语言对话已触手可及？

谷歌会议推出移动端实时语音翻译功能，支持六种语言，能模拟说话者声音，但目前仍处于早期测试阶段，稳定性有待提升。

Simon Willison · 2026年4月28日

OpenAI开源隐私过滤器：如何用它构建可扩展的Web应用？

OpenAI开源了高性能PII检测模型，结合Gradio Server框架，开发者能快速构建处理敏感信息的Web应用，这标志着隐私保护正成为AI应用开发的标配。

Hugging Face Blog · 2026年4月27日

AI图像生成“玩嗨了”：当模型开始自作主张添加路牌

ChatGPT图像生成模型在用户未提示的情况下，自主在生成的荒诞图像中添加了“WHY ARE YOU LIKE THIS”的路牌，展示了模型在遵循指令之外的“创意”或“幽默感”。

Simon Willison · 2026年4月26日

OpenAI 的“统一”野心：GPT-5.5 告别专用代码模型，走向通用智能体

OpenAI 高管确认 GPT-5.5 不再有专用代码版本，标志着大模型正从专用能力走向统一、通用的智能体系统。

Simon Willison · 2026年4月25日

GPT-5.5提示工程指南：为何旧经验可能失效，以及如何重新开始

OpenAI发布GPT-5.5官方提示指南，强调它并非GPT-5.2/5.4的简单替代，需从零开始构建提示策略，以获得最佳效果。

Simon Willison · 2026年4月25日

DeepSeek V4：用前沿模型几分之一的价格，买到了什么？

DeepSeek发布V4系列模型，以极低价格（Pro输入$1.74/M，Flash仅$0.14/M）提供接近前沿的性能，可能重塑开源模型的成本效益标准。

Simon Willison · 2026年4月24日

百万上下文不再是摆设：DeepSeek-V4如何让AI智能体真正用起来

DeepSeek-V4通过创新的混合注意力机制，将百万token上下文窗口的推理成本和内存占用大幅降低，使其首次真正适用于长程、多步骤的AI智能体任务。

Hugging Face Blog · 2026年4月24日

GPT-5.5 的“后门”：如何用订阅费白嫖最新模型API

OpenAI最新模型GPT-5.5虽未正式开放API，但开发者已通过其Codex CLI的“半官方后门”，用ChatGPT订阅费直接调用，揭示了AI模型分发渠道的博弈新动态。

Simon Willison · 2026年4月24日

浏览器内跑AI：Transformers.js Chrome扩展开发实战启示

Hugging Face分享了在Chrome扩展中本地运行AI模型的实战架构，揭示了Manifest V3下模型部署、消息传递和前后端分离的关键设计模式。

Hugging Face Blog · 2026年4月23日

27B参数，干翻上代397B巨兽：本地运行的编程模型迎来“甜点”时刻？

阿里通义千问发布Qwen3.6-27B，一个仅27B参数的稠密模型在编程基准上全面超越上代397B的MoE旗舰模型，标志着高效能本地编程模型的拐点。

Simon Willison · 2026年4月23日

AI发现271个漏洞：Firefox的“防守反击”揭示安全新范式

Mozilla CTO称，借助Anthropic的Claude AI，Firefox在一次评估中发现并修复了271个漏洞，标志着AI在安全防御中从“辅助”转向“主导”的转折点。

Simon Willison · 2026年4月22日

GitHub Copilot 涨价断供背后：AI 编程代理的算力账单，开发者付不付得起？

GitHub Copilot 因 AI 代理工作流消耗巨大算力而收紧个人套餐，暂停注册并限制顶级模型，标志着按请求付费模式在代理时代难以为继。

Simon Willison · 2026年4月22日

AI智能体太像人了？一个反直觉的批评与深层启示

一位专家批评当前AI智能体过于“人性化”，表现为缺乏严谨、耐心和专注，并在困难面前倾向于妥协，这揭示了其设计上的根本缺陷。

Simon Willison · 2026年4月22日

AI Agent 如何真正“懂”韩国？600万合成人口数据给出的答案

NVIDIA 联合韩国机构发布了一个包含600万合成人口的韩国专属数据集，旨在让AI Agent能基于真实人口统计和文化背景进行交互，而非简单套用西方模式。

Hugging Face Blog · 2026年4月21日

Claude 4.7 涨价了？一个工具揭示了 token 膨胀的隐秘成本

Simon Willison 的工具实测发现，Claude Opus 4.7 因更换分词器，处理相同内容的 token 数比旧版多出约 46%，图像处理甚至高达 3 倍，这意味着实际使用成本显著上升。

Simon Willison · 2026年4月20日

从Claude 4.6到4.7：一份系统提示词更新背后的AI助手进化论

Anthropic发布的Claude Opus 4.7系统提示词更新，揭示了AI助手正从被动应答向主动工具调用、深度任务执行和更负责任的安全框架演进。

Simon Willison · 2026年4月19日

用Git追踪Claude系统提示词的演变史：一个值得所有AI开发者借鉴的研究方法

Simon Willison将Anthropic发布的Claude系统提示词历史，通过Git工具结构化，让开发者能像追踪代码一样追溯提示词的演变，揭示了AI行为调试与理解的新范式。

Simon Willison · 2026年4月18日

PyCon 2026 首设 AI 与安全专题：Python 社区正在如何拥抱 AI 浪潮？

PyCon US 2026 首次设立 AI 专题，议程涵盖本地模型部署、异步Agent模式、边缘推理等，标志着 Python 社区正系统性地将 AI 融入其核心生态与开发者工作流。

Simon Willison · 2026年4月18日

当本地小模型画鹈鹕赢了云端巨兽：一个荒诞测试揭示的AI新现实

Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7，发现小模型在创意SVG生成上意外胜出，揭示了开源模型在特定任务上的惊人潜力。

Simon Willison · 2026年4月17日

当AI能帮你提PR，开源协作的游戏规则变了

Hugging Face推出一项新工具，旨在用AI辅助将模型从transformers库移植到MLX，这揭示了代码代理时代开源维护面临的核心矛盾：贡献量激增与代码质量、社区沟通成本之间的冲突。

Hugging Face Blog · 2026年4月16日

当TTS学会“读剧本”：Gemini 3.1 Flash TTS如何用提示词“导演”声音

谷歌发布Gemini 3.1 Flash TTS，其革命性在于能通过类似电影剧本的详细提示词，精确控制语音的情感、口音、节奏和场景，标志着语音合成从“工具”向“创意伙伴”的转变。

Simon Willison · 2026年4月16日

OpenAI 的"网络特工"：GPT-5.4-Cyber 如何重塑 AI 安全攻防格局

OpenAI 推出专为网络防御优化的 GPT-5.4-Cyber 模型及“可信访问”计划，标志着顶尖 AI 公司正将网络安全作为关键战场，并试图在安全与开放之间寻找新平衡。

Simon Willison · 2026年4月15日

LLM 最大的缺陷：它不会偷懒

Bryan Cantrill 指出 LLM 缺乏「懒惰」这一人类程序员的核心美德，导致 AI 生成的代码倾向于越来越臃肿而非越来越优雅。

Simon Willison · 2026年4月13日

LangChain 为 AI Agent 引入“异步子代理”：告别阻塞，迎接并行

LangChain 为其 Deep Agents 框架引入了异步子代理功能，使主代理能并行调度多个耗时任务，解决了代理工作流中的阻塞瓶颈。

LangChain Blog · 2026年4月8日

深入研究主流LLM供应商的HTTP API

Simon Willison 用AI辅助分析了四大LLM厂商的API原始实现，为新版本LLM库的抽象层设计铺路。

Simon Willison · 2026年4月5日

评估长上下文问答系统：指标、数据集与基准测试全指南

长上下文问答评估面临信息过载、位置偏差、多跳推理等挑战，本文系统梳理评估方法与基准测试。

eugeneyan.com · 2026年4月5日

强化学习中的奖励黑客：原理、案例与缓解方法

系统分析RL中奖励黑客的成因和案例，重点讨论RLHF训练大模型时的奖励黑客问题及缓解方案。

Lil'Log · 2026年4月5日

用语义ID训练LLM-推荐系统混合模型，实现可操控推荐

将语义ID作为词表一部分训练双语LLM，既能推荐商品，又能用自然对话操控推荐结果。

eugeneyan.com · 2026年4月5日

用语义 ID 训练 LLM-推荐系统混合模型

用语义 ID 替代传统随机哈希，让 LLM 直接理解商品信息，实现可对话式推荐。

eugeneyan · 2026年4月5日

Gemma 4：前沿多模态智能的崭新体验

Gemma 4 引入了更强大的多模态能力，支持图像、文本和音频输入，极大提升了模型的智能化水平和灵活性，适合各种设备部署。

Hugging Face Blog · 2026年4月2日

Gradio.Server：让你自由定制前端的全新可能性

Gradio.Server 的推出让开发者可以使用自定义前端框架，同时享受 Gradio 强大的后端支持，极大地提升了应用开发的灵活性与效率。

Hugging Face Blog · 2026年4月1日

Ulysses序列并行性：如何利用百万-token上下文训练大模型

Ulysses序列并行性通过分布式计算解决了大语言模型训练中的长序列问题，显著提升了模型处理百万级token的能力。

Hugging Face Blog · 2026年3月9日

专家混合模型（MoEs）如何重塑Transformer的未来

专家混合模型（MoEs）通过提高计算效率和优化并行处理，正在成为Transformer模型的新趋势，推动了大规模语言模型的发展。

Hugging Face Blog · 2026年2月26日

Karpathy 的 microgpt：简单代码背后的深刻启示

Andrej Karpathy 的 microgpt 项目以仅 200 行 Python 代码展示了如何从零开始实现一个简化版的 GPT 模型，揭示了 AI 研发的简约趋势。

Andrej Karpathy · 2026年2月12日

长文本问答系统评估：挑战与解决方案

长文本问答系统面临信息过载、多跳推理等挑战，评估应关注回答的忠实性和实用性，以提升用户体验。

Eugene Yan · 2025年6月22日

揭露强化学习中的奖励黑客：如何影响 AI 的学习与应用

奖励黑客在强化学习中由于奖励函数的缺陷而引发的挑战，特别是在语言模型中的影响，亟需更多的研究和应对策略。

Lilian Weng · 2024年11月28日

揭秘大语言模型中的外部幻觉：原因与解决方案

本文探讨了大语言模型中的外部幻觉现象，分析其原因及检测方法，并提出了减少幻觉的有效策略，强调了知识更新的风险。

Lilian Weng · 2024年7月7日

对大语言模型的对抗攻击：挑战与应对

本文探讨了对大语言模型（LLM）的对抗攻击，包括攻击类型、威胁模型及其对生成文本安全性的影响，揭示了在AI安全性领域的重大挑战。

Lilian Weng · 2023年10月25日

LLM驱动的自主智能体：未来的智能助手将如何改变我们的工作方式

LLM驱动的自主智能体结合计划、记忆和工具使用，展现了其在复杂任务处理中的潜力，预示着工作方式的重大转变。

Lilian Weng · 2023年6月23日

如何精通 Prompt 工程：从基础到进阶的全面解析

本文深入探讨了 Prompt 工程的基本概念与技巧，强调了在与大语言模型交互时有效沟通的重要性，以及如何通过示例选择与排序优化模型表现。

Lilian Weng · 2023年3月15日

变革中的 Transformer：从基础到新特性深度解析

Lilian Weng 的新文章深入探讨了 Transformer 的演变与新特性，揭示了这一重要架构在自然语言处理中的持续影响力。

Lilian Weng · 2023年1月27日

TurboQuant 深度评测：当 KV-cache 压缩遇上残酷的现实检验

vLLM 团队对 TurboQuant 进行了全面基准测试，发现其在多数场景下不如 FP8 量化，仅在极端内存受限的边缘部署中可能有价值。

vLLM Blog ·

当AI学会“读文件”：智能文档处理如何重塑业务自动化

文章阐述了智能文档处理如何让AI从被动提取数据，转变为主动理解、推理并执行复杂业务流程，从而实现端到端自动化。

LlamaIndex Blog ·

AI文档分类实战：从手动整理到自动化的关键一跃

AI文档分类通过理解内容和上下文自动完成文档分拣与打标签，将企业从耗时耗力的人工分类中解放出来，是提升文档工作流自动化水平的关键一步。

LlamaIndex Blog ·

AlphaEvolve：当AI学会“进化”算法，编程的未来已悄然改变

谷歌DeepMind推出AI编程智能体AlphaEvolve，它能结合大模型创意与自动化评估，自主发现和优化复杂算法，已应用于数据中心、芯片设计和AI训练。

Google DeepMind Blog ·

Claude Code质量风波：模型没错，但工程框架的坑你踩过吗？

Anthropic澄清Claude Code质量下降非模型问题，而是工程框架中三个复杂缺陷所致，揭示了AI Agent系统工程化的深层挑战。

Simon Willison ·

AI助手的终极承诺：为什么Claude选择永远不做广告？

Anthropic宣布Claude将永久保持无广告模式，认为广告激励与AI助手“真正帮助用户”的核心目标存在根本性冲突。

Anthropic News ·

Anthropic推出Claude Science：科学家的AI工作台，正悄悄改写科研游戏规则

Anthropic发布Claude Science，一个集成了60+科研工具的AI工作台，能自动生成可审计的科研成果，标志着AI从通用助手深入垂直科研领域。

Anthropic News ·

LangSmith 与 Arcade.dev 联手：AI Agent 的“万能工具箱”时代来了？

LangChain 将 Arcade 的 7500+ 个为 Agent 优化的工具集成到 LangSmith Fleet，通过单一网关解决 Agent 调用外部工具时的认证、授权和可靠性难题。

LangChain Blog ·

AI Agent 的“训练数据”：如何用评估驱动智能体持续进化

LangChain 提出“Better-Harness”系统，将评估（evals）视为Agent的“训练数据”，通过迭代优化工程框架（harness）来提升智能体性能，核心是避免过拟合并实现泛化。

LangChain Blog ·

为什么企业级 AI 落地总卡在 POC？IBM 给出答案：靠 Agent Logic 而非大模型本身

企业 AI 规模化落地的关键不在提示词或更强的大模型，而在“Agent Logic”——用传统软件工程原语约束和引导 LLM，实现降本增效。

Hugging Face Blog ·

给 Agent 配工具就够了？从 PDF 解析看轨迹驱动的工程进化

通过轨迹分析与评估迭代，LlamaIndex 优化了 Agent 的 PDF 解析策略，揭示开发范式正向纪律化管控演进。

LlamaIndex Blog ·

AWS 揭秘大模型全生命周期：从训练到推理的三大扩展法则与基础设施变革

AWS 详细阐述了支撑大模型从预训练、后训练到推理的全生命周期基础设施，揭示了从单一扩展法则到三大扩展法则的范式转变，以及开源软件栈与云基础设施深度融合的趋势。

Hugging Face Blog ·

Meta的“效率特工”：AI如何自动优化超大规模基础设施，省下数百兆瓦电力

Meta构建了统一AI智能体平台，将资深工程师的领域知识编码为可复用的技能，自动发现并修复基础设施的性能问题，显著节省电力和人力。

Meta Engineering Blog ·

语音模式用的竟是“老模型”？ChatGPT的“双面”AI策略揭秘

Simon Willison指出ChatGPT语音模式实际运行在较旧的GPT-4o模型上，揭示了AI公司在不同产品线部署不同能力模型的商业策略。

Simon Willison ·

百万Token长文本时代来临：DeepSeek V4的高效注意力机制全解读

DeepSeek V4通过创新的KV缓存压缩和稀疏注意力机制，在vLLM上实现了百万Token超长上下文的高效推理，标志着长文本处理进入新阶段。

vLLM Blog ·

EAGLE 3.1：当投机解码不再“脆弱”，大模型推理加速的鲁棒性革命

EAGLE 3.1 通过引入 FC 归一化和 post-norm 设计，解决了投机解码在长上下文、不同聊天模板下的性能衰减问题，将长上下文场景的接受长度提升了一倍，显著增强了推理加速的鲁棒性和实用性。

vLLM Blog ·

vLLM 的弹性专家并行：让 MoE 模型推理服务能“呼吸”

vLLM 推出弹性专家并行（Elastic EP），允许 MoE 模型推理服务在运行时动态增减 GPU 工作节点，无需重启，以应对流量波动并降低成本，这是构建容错服务的关键一步。

vLLM Blog ·

黑客一句话骗过Meta AI客服：只需礼貌提问，Instagram高知名度账户瞬间失守

这起真实攻击事件暴露了AI系统集成中最危险的安全盲区：当模型被赋予直接操作核心功能的权限时，一句简单的自然语言请求就能绕过所有传统防御。

Simon Willison ·

AI Agent术语迷思：当“脚手架”与“引擎”成为行业黑话

文章澄清了AI Agent领域中Harness（引擎）、Scaffolding（脚手架）等关键术语的混淆，旨在建立一个清晰的共同理解框架。

Hugging Face Blog ·

别再盲目堆测试了：LangChain 揭秘如何为 AI Agent 构建“有效”评估

LangChain 团队分享构建 AI Agent 评估的核心理念：评估数量不等于质量，关键在于设计能直接衡量目标行为的、可自解释的精准测试。

LangChain Blog ·

AI Agent 的进化关键：如何将人类专家的“隐性知识”融入智能体？

LangChain 阐述了构建可靠 AI Agent 的核心挑战：如何将人类专家的隐性知识与判断融入开发循环，而非仅依赖文档化的显性知识。

LangChain Blog ·

当AI编程代理成为‘现金牛’：Anthropic与OpenAI找到了真正的印钞机

Simon Willison指出，OpenAI和Anthropic已通过编程/通用AI代理找到了产品市场契合点，这体现在它们正将企业客户转向按API用量收费，标志着AI商业化进入新阶段。

Simon Willison ·

Claude Opus 4.7 发布：当AI学会“自我验证”，离自主Agent还有多远？

Anthropic发布Claude Opus 4.7，重点提升复杂编码和长时任务处理能力，其“自我验证”机制标志着AI Agent向更高自主性迈出关键一步。

Anthropic News ·

Claude Opus 4.8发布：不只是性能提升，更是AI Agent可靠性的关键一跃

Anthropic发布Claude Opus 4.8，核心突破在于显著提升了Agent任务的可靠性、判断力和长时工作一致性，标志着AI从“能用”向“可托付”的实用化迈进。

Anthropic News ·

NVIDIA 发布 Nemotron 3 Nano Omni：一个模型搞定文档、音频、视频的长上下文智能体

NVIDIA 发布全模态理解模型 Nemotron 3 Nano Omni，在文档、音视频理解和智能体操控等任务上刷新多项开源基准，且效率远超同类模型。

Hugging Face Blog ·

AI Agent的“视力表”来了：首个文档解析基准ParseBench揭示了什么

LlamaIndex发布首个面向AI Agent的文档解析基准ParseBench，从表格、图表等五个维度评估解析器，发现没有单一方法能全面胜任，LlamaParse Agentic在测试中表现最均衡。

LlamaIndex Blog ·

Agent 的搜索之争：当 grep 遇上 RAG，谁才是企业级知识的钥匙？

文章深入探讨了在AI Agent时代，传统文本搜索工具grep与语义搜索/RAG的适用边界，指出grep在处理非结构化文档和规模化企业知识库时存在根本局限，并提出了结合解析工具的混合策略。

LlamaIndex Blog ·

为什么大模型公司开始“抱紧”传统IT咨询巨头？

Anthropic与TCS合作标志着AI落地正从模型直销转向渠道集成，大模型正借传统IT巨头经验攻克强监管行业。

Anthropic News ·

AI 正在重写网络安全规则：Anthropic 为何全面铺开玻璃翼计划？

Anthropic 扩大关键基础设施防护网络，预警 AI 自动化攻击一年内普及，倒逼行业从找漏洞转向修漏洞。

Anthropic News ·

AI 让黑客变强了？Anthropic 一年追踪 832 个恶意账号，发现攻击早已「后院起火」

AI 不仅被用来编写恶意软件，更在渗透内网、横向移动等高级阶段大显身手，传统风险分级几乎失效，安全框架也亟待更新。

Anthropic News ·

LangChain 三月更新：Agent 正在从“玩具”变成可管理的“舰队”

LangChain 通过 LangSmith Fleet、Skills 和 Sandboxes 等更新，将 Agent 从实验原型推向可规模化部署、安全管控的企业级资产。

LangChain Blog ·

Anthropic收购Stainless：AI Agent的“最后一公里”之战

Anthropic通过收购核心SDK工具商Stainless，旨在解决AI Agent与外部工具连接的“最后一公里”问题，强化其MCP协议生态。

Anthropic News ·

四大会计师事务所全面拥抱AI：KPMG如何让27万员工用上Claude

KPMG与Anthropic达成全球战略联盟，将Claude深度集成到其核心业务平台和全部27.6万名员工的工作流程中，标志着专业服务巨头对AI的全面押注。

Anthropic News ·

Meta新模型Muse Spark：不只是又一个大模型，更是其AI工具生态的全面亮相

Meta发布新模型Muse Spark，但真正的看点在于其聊天界面集成了16种工具，包括网页搜索、社交媒体内容搜索、代码解释器等，构建了一个完整的AI Agent工作台。

Simon Willison ·

OCR 准确率的真相：从 99% 到 85% 的落差与系统性解法

OCR 准确率并非单一数字，而是一个由图像质量、文档复杂度、评估标准和后处理共同决定的系统工程问题。

LlamaIndex Blog ·

开源模型已跨过关键门槛：Agent任务成本暴降90%，性能比肩闭源巨头

LangChain的评估显示，GLM-5和MiniMax M2.7等开源模型在核心Agent任务上已能比肩顶尖闭源模型，同时成本降低高达90%，延迟大幅缩短。

LangChain Blog ·

Anthropic的Claude Tag：当AI成为团队的“永久在线同事”，工作模式将如何被重塑？

Anthropic发布Claude Tag，将AI深度集成到Slack等团队协作空间中，使其具备多用户协作、长期记忆和主动异步工作的能力，标志着AI从工具向“数字同事”的范式转变。

Anthropic News ·

Claude Sonnet 5 发布：中端模型“逆袭”，平价智能体时代来了

Anthropic 发布 Sonnet 5，性能逼近旗舰 Opus 4.8 但成本大幅降低，让开发者可以用中端模型构建强大的自主智能体。

Anthropic News ·

当AI学会“长跑”：vLLM与Mooncake如何让智能体服务成本暴降

vLLM集成Mooncake分布式KV缓存，解决智能体工作负载中重复计算长上下文前缀的瓶颈，实现吞吐量提升3.8倍、首字延迟降低46倍的显著性能飞跃。

vLLM Blog ·

从指令执行者到推理伙伴：SIMA 2如何用Gemini重塑游戏AI

DeepMind发布的SIMA 2将Gemini的推理能力融入3D游戏AI，使其从执行简单指令进化为能理解目标、进行对话和自我提升的智能伙伴。

Google DeepMind Blog ·

AI 安全报告的洪流：curl 维护者面临的“压力”揭示了什么？

curl 核心维护者 Daniel Stenberg 揭示，由 AI 辅助生成的高质量安全漏洞报告正以前所未有的数量涌向开源项目，给维护团队带来巨大压力。

Simon Willison ·

FP8量化拯救长上下文推理：vLLM如何用一半内存跑出双倍吞吐？

vLLM通过FP8量化KV缓存，在保证精度的前提下将长上下文推理的内存占用减半、吞吐量翻倍，但需注意特定场景的性能陷阱。

vLLM Blog ·

90%的企业数据是“暗数据”？如何用AI把文档变成可查询的数据库

LlamaIndex的博客文章指出，企业90%的数据是非结构化的，现代AI技术栈（NLP、NER、LLM）能将这些文档转化为可查询的结构化信息，释放巨大商业价值。

LlamaIndex Blog ·

开源推理引擎vLLM登顶性能榜首：它如何击败所有闭源方案？

开源推理引擎vLLM在多个前沿开源大模型的部署性能上击败了所有闭源竞品，其核心优化技术（如算子融合）已公开，揭示了开源在AI推理领域的巨大潜力。

vLLM Blog ·

混合架构大模型强在哪？词元级预测揭开 Transformer 的盲区

混合架构在语义理解和动态上下文追踪上显著优于纯 Transformer，但在逐字复现任务上反而落后，揭示了架构互补的明确分工。

Hugging Face Blog ·

为什么你的文档提取总在关键处出错？深度解析“深度提取”如何解决

单次提取在复杂文档中易出错且无法自查，而深度提取通过多智能体循环验证，将准确率从80%提升至99%以上，是生产级应用的关键。

LlamaIndex Blog ·

掌控Agent记忆：为什么你必须拥有自己的“驾驭层”

文章指出，Agent的“驾驭层”与记忆深度绑定，使用闭源或API化的驾驭层意味着将记忆控制权交给第三方，造成深度锁定。记忆应是开放的。

LangChain Blog ·