1930年的AI:当大模型只读“旧书”,它能预测未来吗?
一个仅用1931年前文本训练的13B模型,旨在探索AI在知识边界内的推理、创造与“再发现”能力,并引发了关于数据版权与模型纯净性的新讨论。
Simon Willison · 2026年4月28日
一个仅用1931年前文本训练的13B模型,旨在探索AI在知识边界内的推理、创造与“再发现”能力,并引发了关于数据版权与模型纯净性的新讨论。
Karpathy复现了1989年LeCun手写邮政编码识别论文,揭示深度学习进步的本质。
Google DeepMind 发布的 Gemma 4 模型不仅在参数效率上创新,还支持多模态输入,标志着小型有效模型研究的最新进展。
Andrej Karpathy 的 microgpt 项目以仅 200 行 Python 代码展示了如何从零开始实现一个简化版的 GPT 模型,揭示了 AI 研发的简约趋势。
本文探讨了对大语言模型(LLM)的对抗攻击,包括攻击类型、威胁模型及其对生成文本安全性的影响,揭示了在AI安全性领域的重大挑战。