成长回顾

你的位置: 成长回顾 > 新闻 >
新闻
AI落地千行百业,存储痛点突显,海浪信息怎样助力AI向实?
发布日期:2024-11-13 08:49    点击次数:77

AI落地千行百业,存储痛点突显,海浪信息怎样助力AI向实?

作家 | 陈骏达裁剪 | 漠影

AI时期,存储不仅是数据的栖息之地,更是AI模子教师、落地历程中的坚实底座。

在AI开启的存储行业新周期中,繁密厂商已将带宽等性能筹画卷至新的高度。关联词,这种追求似乎将AI这一复杂应用场景浅易地“存储化”了。

施行上,AI对存储的需求远不啻于性能这一维度自己,更需要让存储“AI化”,情切举座存储处治决议与AI应用场景的契合度。这少量,亦然公共独一的AI/ML存储基准测试——MLPerf所情切的本体。

MLPerf存储基准测试面向AI/ML用户的痛点,即存储和诡计的均衡及两者的有用应用。关联词测试中存储架构的万般与存算节点的非表率化,导致性能数据自己的参考价值有所下落。

在性能数据除外,有无另一筹画不错更为准确地反应存储系统在AI场景的进展呢?MLPerf存储基准测试条目加快器应用率需达到90%或70%,在这一区间内窥察节点所能支抓的最大加快卡数,测试其能否尽可能跑满每个客户端的表面带宽,以杀青最好存储性能。

在MLPerf存储基准测试中,由于表面带宽是长入的,因此整个厂商的处治决议均可归一化到汇聚应用率这一筹画上,进行相对客不雅的评估。汇聚应用率的提高意味着资本的镌汰,算力潜能的更充分开释,存储与AI应用场景的契合度也越高。

本年9月,新一轮MLPerf存储基准测试收获发布,其中,中国企业海浪信息的分散式存储平台AS13000G7,在图像分割模子3D-UNet和天体裁模子CosmoFlow所有8项测试中斩获5项最好收获。这一平台在汇聚应用率上展现出20%摆布的上风,断层跨越。

值得一提的是,本次MLPerf存储基准测试已升级至1.0版块,这一升级建议了哪些新的条目,海浪信息又是怎样凭借其工夫积淀与举座处治决议,取得新版测试中的多项最好收获的呢?

一、MLPerf测试迎升级,存储助力AI算天文分图像

2018年,图灵奖得主大卫·帕特森(David Patterson)结伙斯坦福、哈佛等顶尖学术机构和谷歌、百度等AI行业头部企业,共同发起了MLCommons协会,同庚推出首款测试套件MLPerf,现在,该测试是影响力最广的国外AI性能基准评测之一。

▲图灵奖得主大卫·帕特森(图源:ACM)

MLPerf系列测试套件得到学界和产业界的庸俗招供。其中,MLPerf存储基准测试是专诚用于AI复杂负载下存储系统性能的测试套件,最大程度地模拟了AI任务的的确负载,数据拜访的pipeline、架构、软件栈均与施行教师智商无异,已成为AI/ML模子开采者采选存储处治决议的泰斗参考依据。

▲海浪信息是MLCommons的独创成员之一(图源:MLCommons官网)

本次MLPerf存储基准测试1.0版块测试迷惑了公共13家跨越存储厂商和推敲机构的参与,测试内容也迎来关键升级,回话了当下复杂AI应用场景对存储建议的新需求。

一方面,存储系统的带宽峰值处理才调迎来新的挑战,测试终点情切了在高性能GPU达到一定使用率的情况下,存储系统能为AI集群提供的举座带宽和单个节点的带宽。

另一方面,测试还强化了对分散式教师的历练,终点情切每个存储节点简略支抓的GPU数目,以此来忖度用户在AI存储方面的投资效益。

在本次测试中,海浪信息使用3台AS13000G7平台搭建分散式存储集群,并配备ICFS自研分散式文献系统,参与了3D-UNet和CosmoFlow两个单项的测试。

手脚图像分割畛域最具影响力的AI模子,3D-UNet模子的测试中使用了海量的图像类非结构化数据,条目存储平台具备高带宽、低时延的特色,才能保证GPU的高效应用。CosmoFlow天地学分析模子参数目仅有10万-20万,如斯之小的模子对时延建议了更高的条目。二者齐是典型的数据密集型应用。

在3D-UNet多客户端2评测任务中,海浪信息的存储平台功绩于10个客户端264个加快器,集群团员带宽达到360GB/s,单个存储节点的带宽高达120GB/s。

在天地学分析CosmoFlow单客户端2和多客户端2评测任务中,海浪信息的存储平台诀别提供了18 GB/s和52 GB/s的带宽最好收获。

二、契合AI使用场景,兼顾性能、效能、韧性

海浪信息多项最好收获的背后,是其面向AI时期,普及存储平台性能、效能和韧性的勤快。

性能层面,海浪自研分散式软件栈中的全新数控分离架构处治了分散式存储数据流在节点间流转的转提问题,减少东西向(节点间)数据转发量80%。这一性能的普及能匡助客户简略多半的存储资本,系统性价比也相应改善。

效能层面,海浪信息通过多条约数据会通工夫,处治了AI应用场景使用多种数据接入条约变成的存储效能问题,最高可简略50%的数据存储空间。

韧性层面,为餍足AI业务对抓续性的条目,海浪信息的可靠性主动经管工夫、AIOps系统故障预诡计法和敲诈软件检测工夫,有用堤防了开采故障和数据安全问题的出现。关连工夫对硬盘故障的忖度准确率达到98%,对敲诈软件的检测漏报率仅有0.029%。

怎样将工夫整合落地,将工夫筹画诊治为施行效能,最终形成完好且适配AI场景的处治决议,则是实在造福AI行业客户的要道。

海浪信息与AI场景密致契合,凭借其居品场景化定制才调与进修的AI场景处治决议才调,打造出了实在贴合AI需求的存储居品,为AI场景构建坚实的数据撑抓平台。

以本次测试中3D-UNet加快器H多客户端下的测试截止为例,海浪信息的多路并发透传工夫有用减少了I/O操作中闲居的高下文切换,镌汰单次I/O时延50%。本次测试的3D-UNet场景中,3节点存储撑抓了1430个高并发读线程,诡计节点汇聚应用率达到了72%。

汇聚应用率的提高有用镌汰了汇聚资源的奢靡。在客户端确立双网卡情况下,部分参赛处治决议仅有50%的汇聚应用率,意味着整套决议实质上奢靡了近乎一整张网卡资源,大大加多了总体资本。

若在大模子教师的万卡集群下,低汇聚应用率变成的网卡资源的奢靡可能高达数千万级别,更不消说开采扩容所激发的算力应用率下落、聚拢线加多、运维复杂度普及等连锁资本效应。

关于本就资本腾贵的AI基础模范而言,任何不错削减的开支齐显得尤为要道。海浪信息存储处治决议在汇聚应用率上的显明上风,阐述了关连决议对AI场景的高度适配。

在践诺中,海浪信息的存储处治决议如故在互联网企业大模子教师推理场景、大型AI算力中心与某国度重心实验室中落地。

举例,在大模子场景教师中,海浪信息通过加多全闪存储匡助客户杀青效能普及,将断电续训时候镌汰到分钟级别。新增20台全闪存储普及的效能,异常于新增了10多台GPU功绩器,从投资角度上来看,每100万存储投资异常于300万的GPU功绩器投资。

而针对大模子推理场景中多文献条约特色,海浪信息的会通存储决议让客户简略了条约诊治的时候,使得数据网罗准备时候简略30%,存储空间也大幅简略。

结语:生成式AI步入下半场,存储成AI向实要道

据工信部测算,到2035年,中国生成式AI的阛阓范围将冲破30万亿元,制造业、医疗健康、电信行业和零卖业对生成式AI工夫的采选率迎来较快增长。

2024年,生成式AI正昔时所未有的速率走入千行百业。AI行业如故由百模大战时期的“卷模子”,诊治为“卷场景、卷应用”,或将迎来下半场的角逐。

在AI向实发展的程度中,数据是聚拢物理天下与数字天下的伏击桥梁,而存储手脚数据的载体,抓续在AI落地的践诺中线路要道作用。