[本站讯]近日,计算机科学与技术学院智能计算研究所教授肖梦白成功揭榜华为难题第112期“无需侵入式改动与小模型辅助的LLM长文本生成高效解码技术”,获华为难题揭榜“火花奖”。
大语言模型(Large Language Model, LLM)当前被应用在众多行业和场景中,推测解码(Speculative Decoding)技术通过预测与并行解码有效降低了大模型解码延迟。然而现有推测解码方法需要引入额外模型或修改模型结构来预测未来词元,使其在工程部署和多批次推理场景存在局限。

针对上述难题,本项目提出了一种基于n-gram缓存与候选选择机制的高效推测解码方案。首先,提出了多级n-gram缓存与稳定候选选择机制,支持从长到短的降级查询策略,提升候选预测的稳定性和命中率。其次,设计了两层缓存架构与通配匹配算法,通过局部缓存与共享缓存协同机制,增强词元中重复模式捕获能力。最终,在大批次推理场景下较vllm推理引擎实现了33%至74%的吞吐提升。
肖梦白,计算机科学与技术学院教授、博士生导师,主要研究方向包括GPU加速、大数据系统、视频流传输系统。主持国家自然科学基金面上/青年项目及多项校企合作项目,曾获青岛市科学技术进步一等奖、MM 2016最佳论文提名、MM 2022最佳论文Runner-up Award等。
自2021年11月起,华为公司把产业会战和行业面临的“老大难”问题总结提炼为科学问题向社会发布,采用难题揭榜的形式,寻找基础理论扎实、有创新解题思路的人才,同时鼓励高校教师踊跃揭榜。华为公司设立难题揭榜“火花奖”,以感谢获奖者对产业界及科学界做出的贡献。