标签: AI研究 (5 篇)

1930年的AI：当大模型只读“旧书”，它能预测未来吗？

一个仅用1931年前文本训练的13B模型，旨在探索AI在知识边界内的推理、创造与“再发现”能力，并引发了关于数据版权与模型纯净性的新讨论。

Simon Willison · 2026年4月28日

Karpathy复现了1989年LeCun手写邮政编码识别论文，揭示深度学习进步的本质。

karpathy.github.io · 2026年4月5日

Google DeepMind 发布的 Gemma 4 模型不仅在参数效率上创新，还支持多模态输入，标志着小型有效模型研究的最新进展。

Simon Willison · 2026年4月3日

Andrej Karpathy 的 microgpt 项目以仅 200 行 Python 代码展示了如何从零开始实现一个简化版的 GPT 模型，揭示了 AI 研发的简约趋势。

Andrej Karpathy · 2026年2月12日

本文探讨了对大语言模型（LLM）的对抗攻击，包括攻击类型、威胁模型及其对生成文本安全性的影响，揭示了在AI安全性领域的重大挑战。

Lilian Weng · 2023年10月25日