首页 > 实时讯息 >

对话生数科技创始人兼首席科学家朱军:AI视频生成正迈入“高可控”时代

0次浏览     发布时间:2025-03-29 21:17:00    

每经记者:可杨 每经编辑:陈俊杰

大模型的发展日新月异。

3月29日,在2025中关村论坛年会期间举办的“未来人工智能先锋论坛”上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军宣布,生数科技正式发布业内首个高可控视频大模型Vidu Q1,并计划于4月全球上线。

会后,在接受媒体采访时,朱军谈到,2025年将是AI(人工智能)视频商业化快速发展的一年。视频大模型的商业化路径相较于语言大模型更加多元,行业竞争格局也不同于“大模型内卷”态势。

朱军认为,未来视频大模型不会出现类似语言模型市场那样的“一超多强”格局,而是依赖持续创新能力,向更高质量、更长时长、更强叙事性的方向发展。

主办方供图

谈商业化:2025年将是AI视频模型商业化快速发展的一年

朱军介绍,相较于生数科技在1月推出的Vidu 2.0,Vidu Q1在技术层面实现了重大突破,能够接受空间布局信息作为输入,极大提升了视频生成的可控性,使视频生成走向“高可控”时代成为可能。

朱军指出,走向高可控为AI视频生成的发展找到了新路径,清晰指出了AI视频生成的痛点,通过技术手段引入多元素控制,它不再是没有头绪的“乱生成”,而是人为可控,这就让AI视频生成与当下精益求精的制作逐渐趋向一致。

另一方面,高可控意味着AI视频生成的创意呈现更极致、更多元。朱军表示,过去Vidu陆续在画面生成、生成速度、多主体一致等视频生成关键环节下功夫,现在,当“高可控”时代到来时,人们将能够更便捷地将自己头脑中的想法变成现实。具体而言,Vidu Q1在多主体细节可控、音效同步可控 、画质增强方面均取得成效。

对于多模态模型层面的探索,朱军在采访中表示,生数科技自成立之初便专注于多模态大模型研发,Vidu的基座本身就是一个多模态大模型,视频只是多模态技术的其中一种表现形式。除此之外,公司还在探索音频及机器人可控操作数据的应用等多种模态。“对我们来说底层架构基本上是一样的,没有修改就可以去适应多模态,只是面向用户的需求,在不同阶段会推出。”

朱军认为,未来多模态的发展方向是智能体与工作流的全面打通,这种打通也是生数科技规划的重要方向。朱军表示,未来也需要通过推动智能体与工作流的打通,实现不同模态之间的协同,以更好地服务各行业用户。

在商业化方面,朱军坦言,随着AI视频技术的商业价值不断提升,资本市场对生数科技的关注重点也在发生变化。朱军表示,在公司早期阶段,投资人更关注团队实力,而如今,除了技术壁垒,商业化进展已成为核心考量因素。“视频的价值密度更高,商业化进程也更快。2025年将是AI视频模型商业化快速发展的一年。”

目前,其SaaS(软件即服务)产品已覆盖全球200多个国家和地区,上线100天内用户突破千万,增速位居全球第一。同时,在MaaS(模型即服务)端,AI视频技术正在深入应用于动漫影视、文旅、广告、游戏等多个行业,重塑内容生产模式。

近期,OpenAI宣布在GPT-4o模型中集成了迄今为止最先进的图像生成器,并将其整合进ChatGPT中,未来,视频生成能力会否同样被集成进大模型?朱军认为,现在谈这个问题为时尚早。

目前,视频生成的重点仍然是提升视频生成的质量和效率,而随着基座模型的不断优化,AI视频生成自然会逐步向交互式方向发展,但其中最核心突破点仍在于理解能力和可控性。朱军表示,只有实现真正的高可控生成,才能满足未来交互式AI视频的需求。

在谈及高可控能力是否会影响创意表达时,朱军表示两者并不冲突。相反,提升可控性能够让创作过程更加高效、精准,减少用户反复试验的成本,提高创作体验。

“在AI视频创作中,用户的输入可能是图片或文字,我们的任务是精准理解并实现他们的需求。”朱军解释道,过去,AI视频生成往往带有较高的随机性,用户需要反复尝试才能获得理想的结果。而高可控能力的引入,使模型能够更准确地理解并执行用户的创作意图,同时保持创意表达的自由度,例如动作幅度、想象力等方面依然可以充分发挥。

谈行业:视频行业很难出现类似DeepSeek的模型

朱军在接受采访时表示,2025年行业整体落地进展非常快,例如在视频和音频领域,由于其应用场景较为通用,市场接受度更高,而语言模型的落地则往往需要结合行业专业知识,因此链路相对较长。不过,目前行业内同样有应用公司致力于推进大语言模型的落地应用。

谈及技术突破,朱军强调,目前阶段最重要的仍然是通用基础模型的提升。“它决定了我们后端在控制和一致性方面的能力,所有后端的实现都依赖于基础模型的进展。”基于基础模型,生数科技也在不断探索,以实现更高的模型一致性和可控性。

朱军认为,与语言模型不同,视频大模型的商业化路径相对更快。他指出,视频的消费需求非常旷阔,因此,当前行业内领先的公司在视频大模型领域各具特色,并形成了不同的商业化布局。这一领域并不像语言模型市场那样“内卷”,而是呈现出更多元化的竞争格局。

目前,大语言模型行业逐步进入收购与被收购阶段,朱军认为,这与行业发展状态相关。语言模型的竞争已经进入深水区,领先企业在技术和市场布局方面占据优势,而视频大模型则完全不一样,中国的视频大模型在全球范围内很多方面都有应用,这与语言模型的发展状态截然不同。

未来,视频大模型行业是否会和语言大模型一样,只会留下几家专注于基础模型研发的公司?朱军认为,大概率不会出现一家独大的情况。一方面,视频大模型行业不算拥挤;另一方面,从人工智能发展的长期来看,核心因素在于团队是否具备持续创新能力。今天,模型的发展大部分是阶段性发展,尽管目前已经可以服务专业用户并生成高质量内容,但整体上仍有很大提升空间,包括效率、成本以及内容密度等方面的突破。

相比于语言模型,视频生成模型的起步稍晚,但朱军认为,这种“后发”反而带来了更快、更坚定的前进步伐。他提到,视频模型领域已经形成了对效率优化的共识。例如,生数科技在推出Vidu2.0时,就明确提出要做“最高效、最便宜的高质量视频模型”。这种理念已经深入行业,因此,他判断视频领域很难出现类似DeepSeek在语言模型中“效率遥遥领先”的局面,而是更期待让视频模型朝着“更可控、更好用”的方向发展。

谈及开源,朱军表示,开源一直是人工智能行业的重要趋势,生数科技也会开放部分创新方法供业界使用。然而,他指出,大部分所谓的开源模型并未真正开放核心训练过程及数据。“DeepSeek之所以受到用户欢迎,核心在于其出色的效果和高效率。对C端用户而言,最关心的始终是质量和效率,而非模型是开源还是闭源。”

目前,视频生成模型大多集中在5秒以内的短视频,朱军认为,这主要是成本问题,而非能力限制。同时,用户的使用习惯也影响了视频时长的选择。“现阶段,大部分用户习惯于竖屏短视频,而如果要创作1分钟以上的内容,就需要更完整的故事架构,涉及到从文案策划到内容创作的完整流程,而不仅仅是简单的‘图生视频’。”

朱军认为,随着基础模型能力的提升,行业将逐步向更长时长、更具叙事性的场景拓展。“从短视频向更长时长、叙事性更强的方向发展,将成为未来的一个重要趋势。”

每日经济新闻

  • “五一”福利!哈啰携手奈雪的茶推“万杯奶茶免费领”活动

    “五一”假期将至,不少人利用“请4休11”策略休一次长假。为满足用户不同出行需求,哈啰推出“五一出门就用哈啰App”主题活动。5月1日至19日,哈啰联合新茶饮头部品牌奈雪的茶旗下苏浙沪400多家门店开展跨界营销活动。5月1日至8日,用户通过骑行单车/助力车、租用电动车或搭乘顺风车等出行行为累积“哈哈
    2025-04-30 15:36:00
  • 齐向东:大模型应用面临三重安全挑战

    中新网福州4月30日电 (记者 刘育英)奇安信集团董事长齐向东在第八届数字中国建设峰会期间接受媒体采访表示,层出不穷的新兴场景,充分展现出人工智能大模型带来的无限生产力、创造力。但新技术是把双刃剑,大模型应用在带来机遇的同时,也面临三重挑战。一是“小数据”安全问题。传统大数据存在碎片化、质量参差不齐
    2025-04-30 10:16:00
  • 2025年“国际中文日”活动在日本举行

    2025年“国际中文日”活动29日在中国驻日本大使馆举行。日本大中小学校代表、中文爱好者、中日友好人士等170余人参加。活动中,日本师生代表分享了自己与中文结缘的故事。日本山梨学院大学学生泽登早也香说,语言不仅是沟通工具,更是连接人心的桥梁,通过学习中文,她不仅掌握了一种新的语言,更学会了如何跨越文
    2025-04-30 02:22:00
  • 科技让考古更鲜活

    来源:人民日报2024年度全国十大考古新发现终评会上,入围的20个项目依次登场。作为一名参与过不少考古项目的科技工作者,我最深的感受是:越来越多的考古人重视科技的作用,现代科学正在塑造中国考古学的全新风貌。科技全面融入考古的各个环节,极大提升了研究精度。新出土材料和新方法的结合,提供了大量前所未有的
    2025-04-29 19:03:00
  • 上海车展丨不谈女性化,欧拉开启战略转向

    【文/观察者网 张家栋 编辑/高莘】 4月23日,欧拉品牌以“经典新生”为主题亮相上海车展,并发布品牌未来产品规划与用户生态战略。 文中图片均来自欧拉品牌官网 发布会上,欧拉一改往日对女性市场深耕的定位,品牌总经理赵永坡表示,欧拉将持续深耕小型及紧凑型纯电市场。“面对城市出行,欧拉将精准把握用户需求
    2025-04-29 09:33:00
  • HPV等四种疫苗或将逐步纳入免疫规划

    在日前举行的2025年疫苗与健康大会上,国家卫生健康委副主任、国家疾控局局长沈洪兵在发言中分享了对未来国家免疫规划调整模式的展望和设想。国家卫生健康委副主任、国家疾控局局长沈洪兵作主旨报告。图据中华预防医学会沈洪兵称,未来的一个方向是动态调整优化国家免疫规划策略,按照统筹规划、动态调整、分步实施的原
    2025-04-28 17:49:00
  • 银河证券:新质筑基+自主破局 军工行业迎良机

    【银河证券:新质筑基+自主破局 军工行业迎良机】财联社4月28日电,中国银河证券研报表示,新质筑基+自主破局,军工行业迎拓维良机。短期看,首先,美国关税政策对军工产业影响极其有限,“避风港”特征凸显,而军民融合等战略新兴领域有望迎来政策加码;其次,关税引发的自主可控需求得到强化,军技转民用市场空间打
    2025-04-28 08:25:00
  • 方大炭素2024年度发展报告:以新质生产力引领炭素行业高质量发展

    在国内产业结构深度调整的背景下,方大炭素作为中国炭素行业的领军企业,依托方大集团先进的企业管理及灵活的民营体制机制,在2024年交出了一份令人瞩目的答卷:公司实现营业收入38.72亿元,归属上市公司股东的净利润1.86亿元,各项经营指标均保持行业领先水平。这一成绩的取得,源于公司坚持创新驱动、绿色发
    2025-04-27 16:12:00