标签: 深度学习 (7 篇)

33年前后的深度神经网络：从LeCun论文到今天的启示

Karpathy复现了1989年LeCun手写邮政编码识别论文，揭示深度学习进步的本质。

karpathy.github.io · 2026年4月5日

Gemma 4 引入了更强大的多模态能力，支持图像、文本和音频输入，极大提升了模型的智能化水平和灵活性，适合各种设备部署。

Hugging Face Blog · 2026年4月2日

Ulysses序列并行性通过分布式计算解决了大语言模型训练中的长序列问题，显著提升了模型处理百万级token的能力。

Hugging Face Blog · 2026年3月9日

扩散模型在视频生成领域的应用挑战与技术演进，揭示了其在时序一致性和数据需求上的复杂性。

Lilian Weng · 2024年4月12日

高质量的人类数据是现代深度学习模型训练的关键，本文探讨了数据质量的影响因素及其优化方法。

Lilian Weng · 2024年2月5日

本文探讨了对大语言模型（LLM）的对抗攻击，包括攻击类型、威胁模型及其对生成文本安全性的影响，揭示了在AI安全性领域的重大挑战。

Lilian Weng · 2023年10月25日

Karpathy复现了1989年LeCun的深度学习论文，揭示了深度学习技术的演变及未来可能的发展方向。

Andrej Karpathy · 2022年3月14日