百度金融智算云:为大模型时代金融行业构建“核心引擎”
“金融行业异构算力管理面临技术平权、租户隔离、算力释放、异构管理四个核心命题。基于此,金融体系对智算集群有三大诉求:一是对金融类创新业务的快速支持,二是在总行核心业务上保证算力有效运行,三是有效利用总行、分行的统一算力,省本增效。”5月24日,在新金融联盟主办的“智算赋能金融服务智能化”内部研讨会上,百度智能云混合云部总经理杜海在主题发言中表示。
国家金融监督管理总局科技监管司相关负责人,中国银行原行长李礼辉做主题交流。邮储银行总工程师徐朝辉、交通银行金融科技部总经理刘雷、国家开发银行信息科技部总经理宋磊也做了主题发言。
会议由新金融联盟秘书长吴雨珊主持,中国金融四十人论坛提供学术支持。23家银行、理财子和保险公司的专家参会。会议实录详见:金融行业数智转型,如何突破算力瓶颈?以下为杜海发言全文。
百度金融智算云:为大模型时代金融行业构建“核心引擎”
文| 杜海

百度智能云混合云部总经理 杜海
金融行业异构算力管理面临四个核心命题
当前,算力行业发展非常迅速。在政策层面,不管是从国际形势还是供应链安全上,国产芯片已经成为必答题,虽然还存在一些问题,但从标准统一到各方面,国产芯片已经成为一个不可替代的选项。
在模型层面,大模型从传统单一的Dense模型向混合专家架构演进,尤其是混合专家模型底层和工程能力的结合能力,成为了目前大模型智算集群提效的核心能力。这也为更高的算力标准、更高的显存容量以及更快、更大的通信能力提了更高要求。
在芯片层面,传统GPGPU芯片难以满足大模型性能需求,未来专用的AI加速卡逐渐成为趋势,从成本到效率上也会更高。
基于发展趋势,我们看到金融行业对异构算力管理有四个方面的问题。
第一,技术平权。金融集团公司如何实现宝贵的算力资源在总行、分行、子公司安全共享,实现技术平权和算力普惠化。
第二,租户隔离。如何确保多租户的任务,在训练推理过程中,数据安全与风险隔离。
第三,算力释放。算力使用并不等于芯片本身的规格算力,如何通过并行策略、训推加速,释放国产芯片性能。
第四,异构管理,需构建支持多架构国产芯片的异构算力纳管体系,确保供应链安全。
需平衡“有限算力”和“无限创新”的矛盾
基于这四点,我们把智算集群金融体系诉求分成了三个大板块。
第一,金融类的创新业务“快”速支持。其诉求是如何快速支撑创新型业务,常见于分行的创新业务体系。
第二,在总行核心业务上,如何保证算力有效运行。这里体现了一个字:“稳”。
第三,对集团周边所有的生态公司,如何有效利用分行、总行的统一算力,“省”本增效,算网融合统一管理。
对此,我们把整个集群分成三部分:CPU云、训推一体云、训练云。训推一体云满足总行和分行“快”和“稳”的特点,集团共享云满足“省”的降本增效要求。
在整个智算集群架构分布上,金融智算云分成四层:
最底层是国产的GPU芯片层,包含昆仑芯、昇腾、海光等。
第三层是智算云底座,在GPU场景里需要做一轮升级,如何能更好支撑高效能网络,大规模网络部署、计算、存储三者之间通过类似RDMA的相关协议形成更高效率之间的数据通信,这是一个新的智算云底座层。
第二层是GPU算力平台,它主要通过智算云底座对底层架构理解,把底层架构能力透传到上层的任务分配调度里,对训练、推理任务,对其它AI整体任务部署,形成更有效管理。
最上一层是算网融合平台,把多点集群、多点异地异构集群通过算力网络进行统一管理,从算力感知再到算力调度,形成一个一体化的算力网络。
如何实现智算集群“快”“稳”“省”
从“快”的角度,我们的业务体系有一套方案,快速接入到智算能力中。大模型一体机能帮助业务快速使用模型能力。常见的包括基于昆仑芯的百度百舸一体机可以做到单机支持满血的671B模型,昇腾是双机以及其它方案。总体来说是以相对较低成本将智算能力提供给业务。
接下来有两层延伸能力,一层是一体机无缝平滑把业务推向一个更高规模、更高并行要求的能力。我们有一体机扩展方案,实现在业务不中断、数据安全情况下的能力拓展。
再往前走,需要从这个方案去进行相关组件初级拆分,把控制面、数据面和计算面做相应拆离,同时保证从单一一体机到小集群到大集群业务平滑稳定对外服务。
在这个基础上,如果需要进一步提升集群效率,可使用PD分离,更具体地把大模型运行过程中的核心能力、模块进行拆分。
此外,还需要全链路优化。买了芯片,即使芯片规格算力很高,也不等于芯片整体效率很高。这里需要做到平台层有主流模型预覆盖。对新模型,尤其主流模型可以减少适配成本,快速投入生产。基于常见的训练推理框架,实现对应加速提升能力。
在“稳”的方面,更多是保障集群在使用过程中,发生故障时能快速感知、定位,并且最大化做故障自愈,而不是通过工单或者人工手段提到后台再去进行相关算力节点下的操作。
这里有几个重要的点,比如怎么保证集群算力在线率,怎么保证故障快速感知。通过硬件软件以及其它工程化手段,保证最终进行大型任务训练时,它的万卡训练有效率——一个月30天,每天24小时,其中有多少时间能进行任务有效管理,排除掉所有故障,包括我们做Check point备份时间去掉,还要保证整个集群有效训练率。
在“省”的方面,更多是在集群能力上需要多租户管理。在GPU时代,它的核心要有AIHC层面多租户的切分,能基于异构平台把算力统一调度后,在AI任务层面做多租户的切分,保证集群既安全又能有效使用。
在多芯的混合管理以及基于多芯情况下,怎么提高集群整体分配率和利用率,如何进行异构管理,主要有两层:
首先要进行统一算力感知。例如,昇腾的基础算力能力和不同算子调度优化能力是多少,昆仑芯在跑这些任务时的算力感知能力是多少。如何形成统一异构视图,基于任务统一视图进行统一分配。不同芯片的通信接口一个统一,通信协议,昆仑芯、昇腾通信协议之间的统一管理以及接口封装。
还有一层比较难,即精度对齐。不同的异构卡在不同的算子精度实现策略上有比较大的差异,既有硬件差异,也有软件差异。如何在不同卡之间形成精度的有效对齐?这需要对芯片有非常深入的了解和实践,再进行封装和适配,才有可能实现。
除了在技术层面对多芯统一适配管理,还需要在上游任务调度效率上进行管理。很少有单一训练任务一跑跑30天、一口气用万卡资源,更多是数量众多的小型任务。如何通过任务队列对这些小任务进行有效编排,从而让集群整体利用率和任务分配率达到更高水平,是算力调度平台任务层面需要解决的核心要求。
我分享两个案例。当纳管集群数量达到更高规模时,集群的要求是非常大的。百度建的国产昆仑芯P800大型单一集群,从能源效率到机柜数量,再到存储容量与使用效率,这个集群我们做到了98%。
我们与头部城商行进行智算集群合作,从底层芯片层到基础环境,用的是信创的操作系统和数据库,再到算力统一感知,百度基础云平台+百度百舸GPU算力平台,加上百度智能云千帆大模型平台及支撑,从通用场景到智能客服等应用场景提升,做到了不同芯片混合管理、混合使用,通过异构平台在算力感知的情况下进行统一调度能力。
目前有一个比较流行的趋势,从单一服务器提供8卡组件,进一步往单一节点扩大化,把原来的单机8卡、4机32卡、8机64卡,变成单一机柜直接实现32、64卡的超节点方式来提供服务。在超节点内,把计算、存储和网络按照单一服务器的背板走线设计标准统一重新规划,从而至少在64卡内达到单一机型通信效率,并通过超节点间的快速扩展技术实现128、1024等更大规模集群能力。
金融算力发展的四个新趋势
在金融领域算力实施层面,我们看到几个新趋势。
第一,机构统筹建设。金融行业高度重视智算领域算力基础设施建设,需要进行整体系统化规划和统筹。
第二,关键技术攻关。为支撑好金融领域需求,在智算化、绿色化、一体化的技术关键层面, 我们希望能和金融领域龙头一起共创。
第三,标准化建设推进。当前标准还处于突破状态,比较分散,接下来需进一步推进标准化,尤其在模块、算力、体系预制化层面是重要方向。
第四,产业链生态协同。生态产业链如何能更有效协同。现在信创更多指的是CPU、GPU、操作系统、数据库等,再往后包含HBM显存、网络芯片等,这一整套体系如何更好进行全栈信创的服务也是一个趋势。
本文首发于微信公众号:新金融联盟NFA。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
-
非遗太原|古建筑模型制作技艺:榫间万象承千年
祁伟成向大家展示“榫卯之劲” 蝉鸣声声叩响盛夏的午后,在祁伟成置满古建筑模型的工作室里,木香与时光静静蒸腾,穿行于其间,如同漫步在微缩的华夏建筑史长廊。架上、桌上、地上,佛光寺东大殿的唐风雄浑、晋祠圣母殿的宋式巧妙、应县木塔的辽代奇绝……这些严格按照古法“扎”出的“小样”,不仅凝固了时光,更展示着2025-07-25 09:03:00 -
加强金融服务农村改革 两部门:加大重点领域金融资源投入
为深入贯彻落实党的二十大和二十届二中、三中全会精神,落实中央一号文件部署要求,学习运用“千万工程”经验,推动金融系统增强改革思维、用好改革办法,完善农村金融服务体系、提升金融资源配置效能,推进乡村全面振兴,近日中国人民银行、农业农村部联合印发《关于加强金融服务农村改革 推进乡村全面振兴的意见》(以下2025-07-24 17:09:00 -
歌尔微电子闯关港股IPO!声学传感龙头直面苹果依赖与芯片自研挑战
文|号外工作室声学传感龙头再次冲刺港交所了!7月21日,在在港股IPO招股书失效仅24小时后,歌尔微电子闪电重递申请表,联席保荐阵容依然豪华——中金、中信建投国际、招银国际及瑞银集团集体护航。这家从创业板撤退的传感器巨头,在资本市场的辗转腾挪背后,折射出中国半导体企业面临的选择与挑战。歌尔微电子股份2025-07-24 14:46:00 -
建行长治分行:张富清金融服务队深入田间解难题
黄河新闻网长治讯:为高效推进乡村振兴工作,推动金融服务下沉乡村,近日,中国建设银行长治分行组织张富清金融服务队深入田间地头,聚焦农户融资难题,以实际行动为乡村振兴增添“养分”。活动期间,张富清金融服务队成员逐一走访农户,针对农户生产经营中面临的资金瓶颈问题,与农户进行实地座谈。服务队成员详细了解农户2025-07-23 18:49:00 -
太原市柳子河防汛综合应急演练在晋源区举行
近日,“汛期生命守护-2025”太原市柳子河防汛综合应急演练在太原市晋源区成功举行。演练旨在健全完善防汛抗洪抢险应急机制,检验应急救援队伍的实际操作技能,提高应急救援队伍的业务素质和能力,为抗洪抢险做好充分准备。 此次演练分为装备展示、加高加固堤防、山洪灾害转移、内涝积水抽排等环节。演练现场,2025-07-21 07:54:00 -
加强“三农”领域信贷供给
在全面推进乡村振兴战略的关键时期,金融作为支持“三农”发展的重要力量,发挥着重要的作用。近日,国家金融监督管理总局、中国人民银行联合发布《银行业保险业普惠金融高质量发展实施方案》(以下简称《方案》)提出,加强“三农”领域信贷供给。未来,金融机构如何按照要求发力支持“三农”?记者采访了金融机构有关负责2025-07-21 06:59:00 -
23项高频车驾管业务,威海市政务服务中心就能办!
威海市公安局政务服务综合大厅设立车驾管服务窗口,提供车驾管高频业务线下服务,可以办理23项高频车驾管业务。机动车业务:核发临牌、变更登记(变更联系方式、变更身份证号码)、抵押(解押)登记、质押(解除质押)备案、机动车查封、机动车解封、注销登记、核发检验合格标志、补(换)领登记证书、补(换)领号牌、补2025-07-17 12:33:00 -
数智化赋能:推动人工智能教材体系向教学体系转化
◎摘 要人工智能是通用目的技术,高校在人工智能人才培养中要遵循人的认知规律,促进教材建设实现从知识图谱到能力图谱的飞跃,推动教材体系迈向教学体系。浙江大学以人工智能体系化教材建设为基础,研制和开发支撑技术,设计并实施了人工智能通识必修课、AI+X微专业等人才培养模式,实施教育教学人工智能进阶计划,探2025-07-17 12:20:00