用语义ID训练LLM-推荐系统混合模型，实现可操控推荐

eugeneyan.com 研究进阶影响力: 8/10

将语义ID作为词表一部分训练双语LLM，既能推荐商品，又能用自然对话操控推荐结果。

核心要点

在大模型横行的今天，推荐系统（RecSys）和大语言模型（LLM）长期各干各的：推荐系统靠海量用户行为数据精准预测点击，但只会输出冰冷的排序列表；大模型能写能聊、具备世界知识，但对具体商品目录一无所知，推荐结果总是泛泛而谈。

Eugene Yan 做了一个有趣的实验：与其让两个系统各自为战，不如用一个模型同时干两件事。

传统推荐系统给每个商品分配的是随机哈希ID——对模型来说，"item_7f3a"和"item_b2c1"之间没有任何语义关联。Eugene Yan 的做法是用语义化的token序列代替随机ID，让商品ID变成LLM词表的自然组成部分。

训练出来的模型是"双语"的——既能说英语，也能"说"商品ID。给它看用户的浏览历史，它能预测下一个可能点击的商品；更重要的是，你可以直接用自然语言跟它对话：

模型不仅能推荐，还能推理和解释自己的选择。

这打通了两个范式之间的墙。对于开发者来说，这意味着：

当然，目前这个实验还是小规模fine-tuning，prompt设计影响很大，离生产级还有距离。但方向已经很清晰：推荐系统的未来可能不是更强的召回算法，而是更聪明的对话者。