LLM进入“拖拽时代”，只靠Prompt，几秒定制一个大模型，效率飙升12000倍

0次浏览发布时间：2025-06-25 09:16:00

最近，来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」（DnD），它可以基于提示词快速生成模型参数，无需微调就能适应任务。不仅效率最高提升12000倍，而且具备出色的零样本泛化能力。

现在的大模型基本都具备零样本泛化能力，但要在真实场景中做特定的适配，还是得花好几个小时来对模型进行微调。

即便是像LoRA这样的参数高效方法，也只能缓解而不能消除每个任务所需的微调成本。

刚刚，包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员，提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs！

论文地址：
https://arxiv.org/abs/2506.16406

DnD是一种基于提示词的参数生成器，能够对LLM进行无需训练的自适应微调。

通过一个轻量级文本编码器与一个级联超卷积解码器的组合，DnD能在数秒内，仅根据无标签的任务提示词，生成针对该任务的LoRA权重矩阵。

显然，对于那些需要快速实现模型专业化的场景，DnD可以提供一种相较于传统微调方法更强大、灵活且高效的替代方案。

总结来说，DnD的核心优势如下：

极致效率：其计算开销比传统的全量微调低12,000倍。

卓越性能：在零样本学习的常识推理、数学、编码及多模态基准测试中，其性能比最强大的、需要训练的LoRA模型还要高出30%。

强大泛化：仅需无标签的提示词，即可在不同领域间展现出强大的泛化能力。

DnD实现方法

通过观察，研究人员发现，LoRA适配器无非是其训练数据的一个函数：梯度下降会将基础权重「拖拽」至一个特定任务的最优状态。

如果能够直接学习从提示到权重的映射，那么就可以完全绕过梯度下降过程。

DnD通过两个核心步骤获得「拖拽」能力：准备训练数据（左上）与训练参数生成器（右上）。

在准备数据时，将模型参数（权重）与特定数据集的条件（提示词）进行显式配对。

在训练时，DnD模型将条件作为输入来生成参数，并使用原始的LoRA参数作为监督信号进行学习。

基于这些洞见，团队提出了「拖拽式大语言模型」，它无需微调即可生成任务专属的权重。

团队首先在多个不同数据集上分别训练并保存相应的LoRA适配器。

为了赋予模型「拖拽」的能力，团队将这些数据集的提示词与收集到的LoRA权重进行随机配对，构成DnD模型的训练数据——即「提示词-参数」对。

参数生成器是一个由级联卷积块构成的解码器。

参数生成器的模块细节如下：每个超卷积块包含三个超卷积模块，用于在不同维度上提取并融合特征信息。

训练时，团队采用一个现成的文本编码器提取提示词的嵌入向量，并将其输入生成器。

生成器会预测出模型权重，团队利用其与真实LoRA权重之间的均方误差（MSE）损失来对其进行优化。

在推理阶段，团队只需将来自全新数据集（训练中未见过）的提示词输入DnD，仅需一次前向传播，即可获得为该任务量身定制的参数。

效果评估

零样本学习效果

在新的（测试）数据集上的泛化能力。

在所有未曾见过的数据集上，DnD在准确率上都显著超越了那些用于训练的LoRA模型。

DnD能为数学、代码和多模态问答等更复杂的任务生成参数。

在这些任务上依然展现出强大的零样本学习能力。

DnD在多种任务上超越了基座LLM，展现出显著的「拖拽」增强效果。

DnD能够很好地扩展至更大的7B基座模型，并在更复杂的LiveCodeBench基准测试中保持强劲性能。

通过利用已微调的LoRA作为训练数据，DnD成功地在输入提示词与模型参数之间建立了联系。

团队向DnD输入其训练阶段从未见过的数据集提示词，让它为这些新任务直接生成参数，以此来检验其零样本学习能力。

DnD在权重空间中生成的参数与原始参数分布接近，并且在性能上表现良好。

实验结果表明，在零样本测试集上，团队的方法相较于训练所用的LoRA模型的平均性能，取得了惊人的提升，并且能够很好地泛化到多种真实世界任务和不同尺寸的LLM。

对比其他微调方法

为了进一步展示DnD的强大能力，团队将其与全量样本微调（full-shot tuning）、少样本学习（few-shot）以及上下文学习（in-context learning）进行了对比。

令人惊讶的是，DnD的性能超越了LoRA全量微调的效果，同时速度快了2500倍。

虽然经过更多轮次的迭代，全量微调的性能会超过DnD，但其代价是高达12000倍的推理延迟。

此外，在样本数少于256个时，DnD的性能稳定地优于少样本学习和上下文学习。

尤其值得注意的是，少样本学习和上下文学习都需要依赖带标签的答案，而DnD仅仅需要无标签的提示词。

DnD能够达到与全量样本相当甚至更优的性能，同时速度提高了2500-12000倍

作者介绍

Zhiyuan Liang

Zhiyuan Liang目前在新加坡国立大学高性能计算人工智能实验室实习，师从尤洋教授。同时，也得到了Kai Wang博士和Wangbo Zhao的指导。

此前，他在中国科学技术大学获得人工智能学士学位。并曾在北卡罗来纳大学教堂山分校Huaxiu Yao教授的指导下进行实习，以及在中国科学技术大学数据科学实验室跟着导师Xiang Wang度过了两年的时光。

他的研究兴趣主要集中在高效机器学习与参数生成，希望从权重空间学习的视角，探索实现更高层次智能的有效路径。

Zhangyang(Atlas) Wang

Zhangyang Wang目前是德克萨斯大学奥斯汀分校钱德拉家族电气与计算机工程系的终身副教授，并荣膺坦普尔顿基金会第7号捐赠教席。

他同时也是该校计算机科学系以及奥登研究所计算科学、工程与数学项目的核心教员。

他于2016年获伊利诺伊大学厄巴纳-香槟分校电气与计算机工程博士学位，师从计算机视觉泰斗黄煦涛(Thomas S.Huang)教授；并于2012年获中国科学技术大学电子工程与信息科学学士学位。

他的研究兴趣主要聚焦于为生成式AI与神经符号AI定坚实的理论与算法基础。

核心目标是创建结构化、模块化的模型表示：1）在过参数化模型空间中实现高效、鲁棒的学习；2）与符号知识及推理进行无缝连接。

Kai Wang

Kai Wang目前是新加坡国立大学HPC-AI实验室的研究员，接受尤洋教授的指导。

此前，他在新加坡国立大学获得数据科学与机器学习博士学位，在中国科学院深圳先进技术研究院获得计算机技术硕士学位，在北京师范大学珠海校区获得学士学位。

他的研究方向聚焦于参数生成与高效机器学习，尤其注重通过探索简洁的基线方法，来深入洞察深度学习的内在机理。

参考资料：

https://jerryliang24.github.io/DnD/

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

本文分类：实时讯息
本文标签：模型参数样本权重提示数据生成器团队
浏览次数：0 次浏览
发布日期：2025-06-25 09:16:00
本文链接：https://www.jyol38.cn/news/wzlMo49vjn.html

上一篇 > 6月20日至7月31日，停止
下一篇 > 买药先"验码"，卖药必"扫码"！沈阳药品追溯码采集应用全面落地！

台媒公布蓝魁“党内”最新民调：郑丽文支持度近五成

中国台湾网10月14日讯据台媒报道，中国国民党主席选举进入倒计时，将于本月18日投票。根据台湾“东森新闻云”最新针对中国国民党员所做的民调显示，郑丽文以49.1%的支持度领先，其次为郝龙斌21.3%支持度、罗智强21%支持度。但最终投票结果是否相符，仍待投票当日揭晓。该调查指出，若明天就是投票日，

2025-10-14 14:27:00
西电连续三次入选教育部“人工智能+高等教育”应用场景典型案例

阳光讯（记者郑亚雷通讯员王文涛杨帆）近日，教育部公布第三批30个“人工智能+高等教育”应用场景典型案例遴选结果。西安电子科技大学《“西电智评”——数智赋能学生评价的探索与实践》案例成功入选，并在国家高等教育智慧教育平台面向全国宣传推广，成为推动人工智能与教育深度融合的示范性成果。案例围绕近年

2025-10-12 17:13:00
假期“租”出新花样，共享消费升温

“今年的中秋、国庆假期，我们全家要去内蒙古自驾游。为了记录秋色，我已经提前租好了无人机和运动相机。8天假期只需花几百元，就能尝试这些产品的拍摄效果，还可以让孩子们体验新科技，很划算。”在北京工作的陈女士向中国证券报记者表示。从自驾线路上的越野车，到旅行期间的录像设备，以“租”为核心的共享消费在中秋、

2025-10-03 11:55:00
特朗普决定出席美军全球高级将领集会；泽连斯基称乌多地遭大规模空袭

编辑 | 格蕾丝本周外盘看点上周国际市场风云变幻，美联储主席鲍威尔重申通胀就业双向风险，但警告股市估值问题。市场方面，美股小幅下跌，道指周跌0.15%，纳指周跌0.51%，标普500指数周跌0.31%。欧洲三大股指走高，英国富时100指数周涨0.74%，德国DAX30指数周涨0.42%，法国CAC4

2025-09-29 10:43:00
人工智能拓展服务消费新场景

日前，国务院印发了《关于深入实施“人工智能+”行动的意见》，将“人工智能+”消费提质作为一项重点行动进行部署，明确多项举措拓展服务消费新场景。近年来，服务消费作用愈加凸显。根据国家统计局发布的数据，2024年我国服务业增加值占国内生产总值比重为56.7%，对国民经济增长的贡献率达56.2%。然而，服

2025-09-12 07:19:00
【百家民企说】软通动力夏杰：未来企业或成为能自我进化的生命体

中新经纬8月29日电 (谢婧雯常涛)“不再仅靠人的经验运营决策，而是一个能够自主感知、决策、执行并实现自我进化的生命体。”2025数博会期间，软通动力高级副总裁夏杰在接受中新经纬专访时，描绘了他对未来智慧企业形态的畅想。软通动力夏杰受访者供图“数聚”是“智启”的基础公开资料显示，软通动力2005

2025-08-29 11:49:00
宝安区首个巧固球教练工作坊在裕安学校结营

深圳商报•读创客户端记者吴吉8月23日至24日，深圳市宝安区首个巧固球教练工作坊在裕安学校开展。此举让巧固球的种子在宝安教育沃土上悄然扎根，也为裕安校园绘就体育育人的新图景、开启特色运动发展的新篇章。此次工作坊由宝安区委统战部牵线搭桥，重点面向裕安学校、翻身小学、西乡实验学校、航城学校的体育教师开

2025-08-29 10:34:00
甘肃省第四生态环境保护督察组转办第4批15号（重点关注）群众举报件办理情况

【来源：张掖市生态环境局_工作动态】2025年8月16日，甘肃省第四生态环境保护督察组转办我市第4批群众举报件4件，现将第4批1件（重点关注）群众举报件办理情况公示如下。一、受理编号：第4批15号（来电）举报件反映问题：除高台县南华生态林管护中心、高台骆驼城灌渠外，其他灌渠也存在地下水超采情况。高台

2025-08-21 23:35:00