主页 > 新闻资讯 >

4万字长文|华为突围ERP封锁全纪实

2024-09-14 15:42

  深圳的夏天来得很早,五月中旬,阳光就炙热起来了。从梅林关沿着梅观高速向北行驶5公里,有一处繁忙的出口,指示牌上标示:富士康向左,华为向右。从出口下高速,转入张衡路,是一条林荫大道,两边高大的凤凰木开着火红的花,一树树花团锦簇,在阳光的炙烤之下,似乎要燃烧起来。一侧的路上是去往富士康的川流不息的人群,穿着深蓝色的年轻人,三三两两,快步赶往工厂。另一侧的路上是通向华为坂田基地的蜿蜒车龙,汽车走走停停,驾驶员在停顿的几十秒时间里,还习惯性地刷着手机。

  陶景文就被裹挟在车龙之中,脸上写满了疲惫。看到人行道上不断闪过的年轻的面庞,他不禁回想起20多年前的自己,那时他大学毕业不久,只身来到深圳,也是每天从租住的农民房走路到公司,在食堂买几个包子后,就一头扎进软件代码之中。同事都是年轻人,充满地开发新产品,一起熬夜加班,晚上在大排档吃个夜宵,再打上两局台球。现在想起来,那是多么简单而幸福啊。后来,他转向市场与销售工作,从中国到非洲,再到欧洲,十多年间跑遍了大半个地球。再次回到深圳时,他被任命为公司CIO(首席信息官),负责流程和IT(信息系统)建设。

  CIO 的工作不好干。日本管理学家大前研一说过:“作为企业CIO,业务部门要什么你就做什么,这不是一个好CIO,早晚得下台;但业务部门要什么,CIO不能满足这些诉求,下台会更快。”这句话,让陶景文认识到CIO工作的价值与挑战,也领悟到IT和业务之间相爱相杀的缠斗关系,深感责任重大。尤其是在2019年5月16日,华为被美国商务部制裁,170多个关键IT系统都面临着中断风险,全球业务的正常运作受到威胁,他更是感到压力巨大。

  “嘀嘀嘀……”一辆越野车从旁边插过来,想强行加塞。放在平时,他肯定会踩下刹车踏板,让它过去。但是今天,他没有给这个机会。他惦记着一个重要的会议,要见一位老朋友。

  这位朋友是美国甲骨文公司(Oracle)的区域负责人,因为商业关系,陶景文与他结识多年。在华为被制裁之后,所有与华为有商业合作的美国公司都开始解读制裁令,并采取各种措施,以遵从美国政府的规定。作为华为 ERP(企业资源计划)系统的供应商,甲骨文公司也在评估实体清单的影响。从前期传递过来的消息来看,双方继续合作的可能性很小。今天,这位区域负责人将会给他一个正式的答复。

  “陶总,我们和华为有着20多年良好的合作,从我们的意愿来讲,是非常希望能继续为华为服务的。”

  陶景文知道接下来将是不好的消息,但还是抱着一线希望问:“贵公司是否已经向美国商务部申请许可了?”

  送走这位负责人,会议室陷入了长时间的沉默。没有备件,没有服务,没有升级补丁,ERP系统很快就会像一台年久失修的老爷车,所有人都知道这意味着什么。ERP系统是大型企业必不可少的核心管理软件,其重要性堪比人的神经系统,如果ERP系统崩溃,华为在170多个国家和地区的业务运作就会停摆,企业管理也会回手工作业时代,公司生存会受到严重威胁。

  专家撤离得很快。当天下午,平时略显拥挤的办公区就变得空空荡荡,只剩下寥寥几位华为员工站在那里,不知所措。这些专家都是甲骨文公司在中国本地雇用的工程师,他们与华为IT人员一起保障着ERP软硬件系统的稳定运行,面对突如其来的变故,他们尽管内心极不情愿就此中断自己的职责,但是总部的指令必须遵从。

  ERP系统的断供停服,如同奔腾汹涌的大渡河,将困难横亘在华为面前,历史上没有一家公司面对过这样的难题。

  大渡河,因水流湍急,两岸陡峭,难以摆渡和架桥,自古被称为天堑。160多年前,石达开的队伍被阻拦在这里,最终全军覆没。80多年前,中央红军面对军队的围追堵截,成功强渡大渡河,创造了战争史上的一个奇迹。

  面对IT领域的“大渡河”,华为同样没有任何退路可走,由全球200多家子公司、20多万名员工组成的主力队伍,能不能像当年中央红军一样创造奇迹,突破生死封锁线?

  华为走上了突围之路,数千人的团队即将踏上一段艰苦的征程。在乌云密布的茫茫黑夜中,似乎看不到一丝光亮。

  2019年6月,陶景文团队在经过多轮讨论与分析后,向公司提出了两个并行计划:A计划,保障现有系统稳定运行,并尽可能延长其生命周期,为赢得时间,由张国斌负责;B计划,为ERP系统寻找替代方案,找到船和桥,从根本上解除威胁,由常栋负责。

  解决船和桥的问题,无非是两条路径,一是寻找国内厂家替代产品,二是自己开发。有关这两条路径的讨论与验证,前前后后持续了大半年的时间。

  这两条路都很艰难,如果采用国产软件包替代,它能否平稳支持华为如此大体量且复杂的业务?如果自己研发ERP系统,那将是一个巨大的工程,从研发到替换,全世界都没有先例。

  常栋派出一个团队,与国内ERP系统厂家紧锣密鼓地进行交流和测试、验证。由于华为全球业务场景过于复杂,国内厂家的软件包难以匹配,团队经初步评估和测试发现,如果采用国产软件包替代,则需要进行大量的定制化开发,其工作量和难度可能并不亚于公司自己开发。

  公司一位领导说:“如果有选择,我们最不愿意启动的就是ERP项目。当年仅仅是想更换 ERP供应商的提议,都被我否决了,更不要说自己开发了。”

  公司内部一位专家有着20年ERP系统使用经验,听闻消息后大吃一惊:“这是真的吗?这怎么可能?领导们是疯了吗?哪来的勇气和自信?”

  还有人质疑,以前我们只是ERP系统的使用者,相当于坐在大船上的乘客,现在要自己造一艘万吨巨轮,能行吗?

  陶景文自己也没有信心:“要在不影响业务的情况下替换ERP系统,就像把人的神经系统抽出来,还要在这个人活着的时候把它连接回去,同时保证任何一个器官都不出问题,这是多么难的一件事。”

  为了便于读者理解ERP 的概念,我们先举一个例子。假如一位个体户经营一个煎饼铺子,需要管理鸡蛋、面粉、大葱等十几种食材,他通过眼看心算就能管得过来;假如他经营一家便利店,涉及几十、上百种商品的进、销、存和价格,那光靠他的脑袋就不行了,过去要用账簿和算盘,现在要用到电脑表格;假如他经营的是一家大型超市,涉及成千上万种商品的进、销、存,以及管理、会计,即便他拥有牛顿、爱因斯坦的大脑也算不过来,单纯的电脑表格也不够用了,这时就需要用到类似ERP的管理软件系统。

  诺贝尔经济学奖获得者科斯提出,企业的本质就是一种资源配置的机制。ERP系统就是支撑企业资源配置的软件系统,中文全称为“企业资源计划”。 其雏形诞生于20世纪60年代至70年代,一些制造企业开始采用计算机辅助生产管理,提出了物料需求计划(MRP)系统,主要功能是管理物料需求与供应;80年代,升级为制造资源计划(MRPII)系统,这是一个将生产、财务、销售、采购等各子系统集成为一体化的系统;90年代初,高德纳咨询公司(Gartner)提出了ERP的管理思想。ERP系统综合了企业各方面的资源,支撑着公司人、财、物的资源配置,实现全员深度参与,成为现代企业经营管理必 不可少的软件系统。

  而用于大型企业的高端ERP系统,更是被视为企业的神经系统,一旦中断,业务就会停摆。这些企业规模大、业务板块多、流程复杂,涉及多语言、多币种、多会计准则,ERP系统要支撑这个庞大系统的有效运作,适配不同 业务场景需要,其复杂度和难度可想而知。

  ERP系统的本质,是先进企业管理经验的软件化沉淀。企业引入ERP系统,不仅仅是购买一套软件,更多的是引进软件所沉淀的流程经验和管理智慧。ERP系统还需要产业链上游的信息技术支撑,包括服务器、存储等先进硬件设备,也包括数据库、操作系统、开发工具等先进软件系统,而这些底 层技术大都为美国公司主导。如果软硬件形成事实标准,替换就会更加困难。

  ERP软件需要长期积累与大量投入,可以说是时间与金钱的积分结果。一直以来,高端ERP系统都由甲骨文、思爱普(SAP)等欧美厂商主导,在中国市场,这两家公司的产品覆盖了各行业的龙头企业,和华为一样,这些大型企业也对欧美厂商形成了很强的依赖。国内厂家在20世纪90年代中期开始ERP系统开发,经过20多年的创新发展,取得了巨大的进步,但在高端ERP系统市场,仍然难以撼动欧美厂商的优势地位。

  华为自1996年引入甲骨文公司的ERP系统,历经20多年的应用实施与升级优化,截至2019年,ERP系统数据积累到惊人的150T;全球500多万份合同履行、6万多个项目交付、7亿多行采购指令、24亿多行库存交易、33亿多行发货订单、17亿多行应付、15亿多行应收......这个系统承载了华为多年管理变革所沉淀下来的经验,支撑了全球业务运作。基于精细化业务管理要求,华为对ERP系统进行了大量定制开发,代码高达490万行。在ERP系统外围还有300多个作业系统,与ERP系统拉链式集成,频繁 进行数据交互,形成了一个错综复杂的庞大系统。

  华为在IT建设上的策略是“用欧美砖修长城”,主要IT系统大都使用欧美厂商成熟的软件包,这对华为快速引进西方优秀管理经验、提升企业经营管理水平,起到了非常重要的支撑作用。但在这个策略之下,流程IT部门的定位更多是一个项目实施、资源管理和系统开发部门,而不是专业的产品研发部门,尤其缺乏大型商业软件的开发经验。

  这一群过去习惯了坐大船、过大江的乘客,现在要自己造船了。历史上没有哪家公司这样干过,连想都没有想过。

  在陶景文的脑海中,无数次响起刘欢演唱的这首《在路上》。在他看来,ERP系统替换之路的开端,就是不得已而上路。在各种意见和畏难情绪弥漫的时候,他需要在公司内部争取到足够的支持。

  交流地点在长廊咖啡厅,它也是一个开放的图书馆,有50多米长,靠墙一侧有十多个大书架,摆放了各学科图书。在长廊入口,陶景文注意到有两本摊开的书。一本是《科学:无尽的前沿》,这是二战之后美国科学家范内瓦·布什提交给总统的一份科技政策报告,对美国日后几十年的科学研究与创新产生了极大的促进作用。另一本是罗伯特·卡帕的摄影作品集,卡帕是知名的战地记者,书中收录了他在欧洲各国、中国、越南等地拍摄的优秀作品。

  “情况很不乐观,我们必须做一个选择。”陶景文说,“我见了几位国内ERP伙伴,尽管他们从来没有遇到过华为这么复杂的场景,但我们还是要团结伙伴一起来干,要为中国软件产业生态的发展架起一座桥。”

  领导说:“在当前的形势下,我们首先要丢掉幻想。这件事情很难,但我支持你们做。公司已经决策,有一笔3.28亿美元的专项基金,你们可以拿去用。”

  “领导,现在公司冻结了社会招聘,ERP系统替换急需业界专业人才,我们能否申请100名高端人才的招聘名额?”

  陶景文从笔记本中撕下一张纸,现场写起了申请:“针对关键IT系统面临的严峻情况,特申请补充100名高端及特殊人才编制,用于打赢IT业务连续性及安全防护战役。请公司批准。”

  供应团队是自研的坚定支持者。自2015年开始,供应链启动了数字化变革项目,对ERP部分外围系统进行了重构,取得了良好进展。他们认为,这些数字化系统就是摆脱ERP依赖的底气,现在要做的是进一步把ERP交易平台建设好。

  财经团队同样坚决支持自研,因为没有其他更好的选择。过去10年,他们和多家国内厂商进行过交流,甚至试用过产品,但距离满足华为复杂的业务需求还有较大差距,他们不希望华为ERP系统退回到10年前的水平:“如果要在中国找一家满足华为业务需求的供应商,这家供应商可能只能是华为自己。”业务部门没有给自己留退路。他们急切的渴望和坚定的决心,让IT团队受到了极大的鼓舞。

  “宁可向前一步死,绝不退后半步生。”面对前所未有的制裁与打击,华为上上下下已经形成共识,坚定信心要继续前进,求生存、谋发展。

  但是,有一个担忧一直萦绕在他的脑海中:“现有ERP系统快到生命周期末期,没有保修、没有备件,这台‘老爷车’到底还能跑多久?”

  他心里完全没底。如果现有系统用不了两个月就崩溃了,那任何未来的计划都没有意义。他凭直觉判断,要找到船和桥,至少要3年时间。他对A计划负责人张国斌说:“你们要和时间赛跑,尽可能延长老系统的生命周期。”

  张国斌是一位资深的IT专家,2005年加入华为,之前曾在新加坡负责某国际物流公司的IT建设。他的团队要保障3000多个IT系统的稳定和安全,而ERP系统是排在第一位的。他非常了解原厂 ERP系统的情况,华为将其用到了极致,无论是功能、性能还是容量,系统基本处于满负荷状态,极易触发故障。

  “我们是带着荣誉感和使命感来维护这套系统的,把它当作大熊猫一样悉心看护。”维护团队对原厂ERP系统有着一种又爱又恨的复杂情感,每一次升级、每一次优化、每一次账务月结,都如履薄冰。

  ERP系统被断供停服之后,大家都很着急,怕系统突然崩溃。公司的要求是:哪怕是挖沟、建土围墙,也要把ERP系统先保护起来,不能让20多万名员工回到用算盘算账、用鸡毛信传递信息的时代。

  除了系统本身可能出现故障,张国斌还有一个担心,就是来自外部的蓄意破坏。系统会不会被人为切断?或被黑客恶意攻破?他知道,从技术角度看,凡事皆有可能,不能有任何侥幸心理,IT系统维护也遵循墨菲定律:如果事情有变坏的可能,不管这种可能性有多小,它都会发生。

  为了防止人为破坏,技术团队第一时间采取了应急措施:断网。即通过软件防护,关闭外网接口;在内网构建页面保护罩,缩小暴露面,保护系统免受攻击。

  要让这台没有维修保养的“老爷车”继续跑下去,面临着三大挑战。第一是硬件服务器即将到生命周期末期,无维保、无备件,硬件极易损坏;第二是软件补丁不可获得,也没有专家支持,出现问题难以修复;第三是安全漏洞与黑客攻击风险。

  张国斌优先要解决的问题,是组建系统维护团队。原厂专家撤离后,华为除了集中自有维护人员,也紧急在社会上招聘业界专家,第一批就招到多位熟悉原厂ERP系统的专家,解了燃眉之急。这个团队全天候监控,主动运维,保障了系统暂时平稳运行。

  技术团队联合公司网络安全部门,在很短的时间内构建了一套有五层围栏的保护罩,包括防止用户账号被盗用的“身份围栏”,防止网络渗透的“网络围栏”,防止主机软件漏洞入侵的“主机围栏”,防止ERP系统原生漏洞入侵的“应用围栏”,防止数据删除或篡改的“数据围栏”。

  他们还建立了同城双活、异地容灾、三重备份等机制,保障了老ERP系统的极限生存,即在发生数据删掉、软件包甚至备份库被破坏的情况下,业务数据仍然能够恢复。由于系统存储容量达到极限,为了给“老爷车”减负,团队将一些历史文档和旧数据进行归档,给生产环境留下了更多空间。同时向公司建议,进行合同关闭清理、清除历史数据,力求把系统总容量使用占比控制在65%的安全线以下。

  经过张国斌团队的努力,A 计划取得了良好的进展。2019年11月的一个夜晚,他向陶景文报告:“现有系统的稳定性和安全性都得到 了有效防护,我们判断,这台‘老爷车’至少可以再跑两年。”

  夜晚的园区灯火通明,后勤部门在办公楼旁边的草坪上搭起了“星光夜市”,他们支起帐篷,摆上户外桌椅,为大家提供免费的夜宵。忙碌了一天的员工三两成群,聚在一起喝咖啡,享用点心和水果。

  一旁的步道上,喜欢夜跑的人开始行动了,张国斌也在其中。从他办公的C区跑到A区,一个来回是两公里,晚上只要有空,他都会坚持跑两个来回。跑步的同事不少,在一些有车辆出入的路口,公司贴上了温馨提示:“星光不问赶路人,夜跑同学请留心。”张国斌留意到路边新建了一排充电桩,好多员工的新能源车正在这里充电,听说还是免费的。他戴着蓝牙耳机,听着音乐,穿过园区小树林,心想,可真是一条“充电”的好路线。

  张国斌并不是一个特别爱运动的人,他跑得很慢,或者说只是比走路要稍快一点,30分钟跑完两个来回,已是大汗淋漓。和其他夜跑同事不同的是,他不仅是为了健身而跑,更是为了生存而跑。因为他患有心血管疾病,那段时期越发严重,医生嘱咐他一定要减肥,否则可能会有更坏的情况发生。于是,在给老ERP系统减负载的同时,他也给自己制订了目标:每个月必须减重一公斤。最终,他成功减重十多公斤。

  替换硬件服务器的任务由周启涛主导。他是资深ERP专家,在读研究生期间就学习ERP相关理论,毕业后在业界做了4年ERP系统实施与维护,之后在华为又做了10年维护工作,对原厂ERP系统有着深刻的理解。

  华为ERP系统数据量大,对硬件性能要求非常高,只有原厂的软硬件一体的机器才能运转起来。一体机有着炫酷的设计,外表是银灰色的工业化风格,镂空的前柜门上写着一个大大的“X”,机器有2米多高,重量接近3吨,因为体型庞大,所以俗称“大机”。

  大机安装在华为的数据中心内,这是一座有着严密防护措施的现代化建筑,确保机器稳定运行和数据安全。包括周启涛在内的所有工作人员或其他来访者要进入机房,都要经过数道门禁认证,签署承诺书。在经过堪比机场安检的程序后,再换上专用反光背心,还要把手机所有摄像头用贴纸封上。踏入机房,首先会踩到一块黏糊糊的胶垫,以粘走鞋底的灰尘。接下来便会看到一排排比普通人高出一头的服务器,64台一组,排列得整整齐齐,随着指示灯的闪烁和散热风扇的嗡鸣声,这些机器为华为全球的IT系统提供着算力与存储空间。

  每次进入机房,周启涛都有一种强烈的秩序感,空间的规划、机器的摆放、线束的布置以及温度的控制,一切都井井有条。但这种秩序只是一种肉眼可见的表象,在纳米尺度的器件之中,在由代码构成的虚拟空间里,隐藏着各种看不见的危机,随时都有可能爆发。当时正在使用的这组性能强悍的原厂大机,在ERP系统庞大的数据负载之下,也显得非常脆弱。自2017年春节投入使用以来,它连续跑了1000多天,从未休息过。这些年来,它支撑着ERP系统运行,经历过无数次数据洪峰,周启涛团队小心翼翼地照看着它。

  的大机,现有大机也得不到原厂维保,出现重大故障的概率越来越高。周启涛一直有个大胆的想法,就是用华为自研的服务器替换掉原厂大机。但自研服务器一直是作为备用机运行的,从未正式启用。如果直接替换,服务器CPU(中央处理器)使用率将达到100%,系统可能会立刻崩溃。

  面对这个瓶颈,从业界招聘来的技术专家李凌云通过性能优化攻关,将原厂大机的数据库负载量降低了40%,这使得大机切换的设想成为可能。

  2020年8月8日,夜暗如水,办公楼灯火通明,现场近50人,远程200多人,等待大机切换时刻的到来。

  深夜 2 点 30 分,到了决策点,运维经理请示周启涛:“并发管理器和服务不可用,存在高风险,如果分析和恢复时间过长,将会造成大范围的周边系统不可用,导致业务停顿。原因还需定位,但是时间太紧,请决策是否回退。”

  维护团队近一年的努力,一幕幕在周启涛眼前闪过,他实在不想就此放弃,还想给技术团队争取一点时间。他看了看表说:“还有时间,大家放松些,继续定位问题。”

  切换团队开始快速排查各种可能。难道域名解析异常了?但域名、网络都是正常的,该重启的都重启过了。

  贝承发突然想到,5年前他遇到过的一个类似问题:数据库配置与ERP应用配置冲突。这是一个很隐蔽的软件缺陷。

  随着一串串指令的输入,系统成功接通,办公室里一片欢腾。接下来,团队齐心协力,完成 ERP 系统及所有外部应用的验证,系统运行平稳,无任何异常。

  周启涛看着这个相识多年的伙伴被替代,心中竟然有些不舍。不过,这台机器还不会下岗,它将承担新的使命—作为自研服务器的备用机。而周启涛也有了新的使命:从老ERP系统的维护者,变成新ERP系统的建设者。在这一刻,人和机器都在重新定义自身的价值。

  周启涛抚摸着银灰色的金属机框,自言自语道:“这真是一台好机器。”大机的一排指示灯在闪烁,仿佛在回应他说:“你也是一个好人。”

  经过一年多的努力,“老爷车”换了新底盘,焕发出勃勃生机,还可以持续跑下去。张国斌团队赢得了这场生命与时间的赛跑,为接下来“渡河”行动暂时解除了后顾之忧,提供了 5 年左右的时间窗口。

  B 计划负责人常栋在公司食堂吃完早餐,正绕着园区中的天鹅湖散步。所谓天鹅湖,其实就是一个浅浅的人工湖,因多年前引进了两只黑天鹅而得名,现在它们已经繁衍好几代了。看着红喙黑羽、优雅美丽的黑天鹅一家在温暖的阳光中悠闲地划着水,常栋很是感慨。黑天鹅是原产于澳大利亚的珍贵品种,17 世纪以后才被世人知晓,人们常用“黑天鹅”事件来形容那些不可预测、小概率而又影响巨大的事情。过去半年多来,常栋所负责的 IT 应用领域发生了太多的“黑天鹅”事件,多家西方公司中断升级、停止设备供应、撤走维护专家,在他 20 年的工作经历中,从未遇到也没有想到会发生这样的极端情况,这些难以预测、不同寻常的事件,完全打乱了原有的 IT 工作规划,给公司业务运作带来了致命的威胁。

  在他负责的B 计划中,面临着多座难以逾越的大山:ERP、PDM(产品数据管理)、服务器、存储、数据库、操作系统等。每一座大山的背后,都站着一个或几个美国 IT 巨头。华为曾经站在这些 IT 巨人的肩膀上,快速提升了全球化经营与管理能力。现在,走下巨人的肩膀,如何替换掉这些产品,还充满了迷雾。

  今天,会有一个重要的决策会议,他将向华为变革指导委员会汇报ERP 替换的立项申请,如果获得通过,一场持续几年的大战即将拉开帷幕。

  理智告诉他,ERP替换这条路,不管朝哪个方向走,成功都将是一个小概率事件。但凡事皆有可能,现在已经没有退路了,只要有 1% 的可能,就要做 100% 的努力。这时,湖中的黑天鹅发出嘎嘎嘎的叫声,似乎在对他说:“事在人为,只要下定决心,为什么就不能逆向创造一个‘黑天鹅’事件呢?”

  决策会议在培训中心召开,这是一处被葱郁的树木和竹林环绕的区域,显得典雅而幽静。与会人员都在认真聆听常栋的每一句话,并不时打断提问。这个决策很重要,它关系到未来几年数亿美元和数千人力的投入,更关系到公司全球业务的连续性。

  常栋是一位专家型主管,任何时候都充满干劲。他在华为流程IT 部门工作了 20 年,负责过架构规划、应用开发与实施等各环节工作,对 ERP 系统有着深入的理解。他提交的立项申请,实际上也就是“强渡大渡河”的实施计划。在这个计划里,他提出了两个关键步骤:第一步“解耦”,把原厂 ERP 系统从几百个业务系统中剥离出来,理顺各种接口关系;第二步“换芯”,开发新的 ERP 系统核心模块,并在全球 200 多家子公司里替换掉原系统。

  这两步看起来简单,实施起来却异常复杂。其中最核心的约束条件是:在ERP 系统的替换过程中,要保证全球业务运作不受影响,保证数以亿计的数据不能出错。这相当于在飞行中换发动机,在业界完全没有先例。计划中需要用到的许多关键技术和能力,现在还很不成熟,甚至还没有被开发出来。

  这真是一个大胆的计划!尽管大家还有很多的顾虑,但委员会经过集体表决,最终同意ERP 替换立项,并明确了总体目标:面向未来打造云化、服务化的泛 ERP 架构,用 3 年时间完成新 ERP 主体建设,5 年完成覆盖。

  经过前期摸底,ERP 系统和业务系统有着极其复杂的关联,共计有 3950个业务连接点,2.7 万多个数据进出口,关系盘根错节,犹如一团乱麻,老系统不解开,新系统就无法启动重构。这个难题,让总架构师卢强夜不能寐。

  卢强有着 20 年数字化转型经验,经历了多个变革项目的洗礼,他经验丰富、视野宽广,懂业务、懂技术,是一位儒雅的学术型主管。他一直在思考,如何从一团乱麻中理清 ERP 系统的边界,能否找到一个简单易懂的模型,让所有人都能够理解、达成共识,并以这个模型为基础进行顶层设计。

  这是一间典型的华为会议室,前方是一块大型液晶屏,两侧各有两块智慧屏,各种音频、多媒体、网络和智能化设备一应俱全,能够支持全球上百人开视频会议和进行研讨。在几盏明亮的水晶吊灯下,是一张十多米的长条实木会议桌,正对桌子的墙壁上,挂着一个大石英钟。

  “嘀嗒、嘀嗒、嘀嗒”,时间一秒一秒流逝,夜深人静,石英钟的嘀嗒声格外清晰。卢强盯着表盘上的罗马数字和交错的指针,想起了当年在大学物理课堂上,老师讲相对论,说时间本质上是不存在的,时间只是人类的幻觉。是啊,时、分、秒,乃至日、月、年,都是基于地球、月球和太阳之间空间运动关系的转换,是人类定义出来的概念。因为有了精确的钟表,无形的时间才得以直观地呈现给每个人,大规模的社会分工与协作也才成为可能。但与此同时,人们的各种活动也被时间所驱动、所约束,被分割成一个个的碎片。比如说,接到一个电话,你必须在几秒之内进行思考并给予回应;回一个信息,你有几分钟的时间来考虑措辞;开一次会,差不多一两个小时,你可以接收和处理较多的信息;而对于一些重要且复杂的事情,你必须以日、月甚至年为单位来应对。

  时间,时间,时间,普通而又神秘的时间,这个由人类创造出来又束缚住人的概念,对人也好,对万事万物也好,都是一个天然的分割模型。与 ERP 相关的数以百计的系统,是不是同样也可以从时间维度进行分割?有一些系统像秒针一样,实时刷新数据;有一些系统像时针一样,可以较长时间不动;还有一些系统介于二者之间,就像分针一样。

  过一次思想实验,卢强提出了“秒针、分针、时针”的模型,以此来界定 ERP 系统的边界,开展顶层设计工作。

  “秒针”指实时交互数据的业务作业系统,包括供应、采购、销售、财经等 200 多个自研 IT 应用,它们与 ERP 系统相互连接,每一单采购合同的履行、每一个产品的完工下线、每一次库存的进出货,都要在 ERP 系统中进行交易结果的记录;“时针”指定期披露的报告系统,这部分数据应对的是月报、季报、年报等财务报告系统,并不需要实时变动,只有在特定时间点需要提取;而介于二者之间的“分针”,就是 ERP 核心系统,负责从交易到核算的处理,存放的是企业经营管理最核心的主干数据,要准确地和“秒针”“时针”进行数据交互,以确保业务信息与财务信息的一致。

  在老 ERP 系统中,“秒针”“分针”“时针”是纠缠在一起的,华为要构建新的 ERP 系统,首先要顺着这个线头,把业务系统剥离开,即解耦。解耦过程就像庖丁解牛,庄子笔下的庖丁从刚刚入行时“所见无非牛者”,到游刃有余时“未尝见全牛也”,是因为他已完全洞悉了牛的身体结构。在卢强的脑海中,他已经洞穿了 ERP 系统这条“整牛”内部的经络,接下来的解耦工作也就游刃有余了。

  经过项目组几个月的努力,“秒针”系统中,3950 个集成点减少了 70%。以上,同时 490 万行定制代码精简了一半;“时针”系统中,7 组报告用表(每组共 1198 张表)合并为了 1 组。被解耦的部分回归各业务领域,由业务各自管理,ERP 系统成功实现了瘦身。

  而 ERP 系统核心部分的“分针”,由于各模块间耦合性很强,专家组在进一步的“换芯”方式上发生了激烈的争论,最终达成一致,决定以法人子公司维度进行“换芯”,并以此为基础设计出新系统上线的切换方案。

  一团乱麻终于解开了! 20 多年来,华为第一次厘清了 ERP 系统的边界,第一次把这块“欧美砖”抽了出来,这让大家看到了前方的曙光。

  但是,针对第二步“换芯”的设计,比想象的还要困难。现有项目成员去都是 ERP 系统的使用者,熟悉原厂 ERP 架构,最容易想到的方案就是参照原厂系统“照葫芦画瓢”。但原厂 ERP 系统使用的是软硬件一体机的设计,其数据库是全球排名第一的产品,性能强悍,单一数据库可支撑 170T 数据量,而华为受到制裁限制,能够获得的开源数据库只能支撑 4T 数据量,与原厂有几十倍的差距,无法按软硬件一体式的方式来进行设计。

  一位资深专家谈起公司过去进行 IT 建设时,过于强调“用欧美砖修长城”,导致对国外产品的严重依赖,而且使流程 IT 部门在软件开发能力上的储备严重不足。

  “我们不能用今天的变量来谈论过去的事情,那个时代华为采用软件包驱动是最佳选择,软件包承载了业界最佳实践,即使到今天,如果有合适的可用软件包,公司仍然坚持与伙伴开放合作的态度。”陶景文说,“公司是希望 IT 人员聚焦‘修好长城’,而不是聚焦‘造砖’。我们需要思考的是,为什么这些砖一块块堆叠混乱,别人拿走一块砖头,整个长城就要倒了?这对未来我们在架构上、技术上有什么启发?”

  接下来又有人提议,以当前团队的能力,在 ERP 替换上,应该以“逃生”为主,采取“保守治疗”,慎用新技术和新方案。

  陶景文不同意这种看法,他说:“ERP 系统不是一个新鲜事物,本质是工业化时代的一种计划管理系统,其精神内核是工业文明。最近10年,智能化、数字化转型在全世界已呈燎原之势,但传统的 ERP 系统还没有进行性的演进。华为要替换掉工业时代的成熟软件产品,是因为时代环境把我们逼上了梁山,但是站在另外一个角度上看,时代也赋予我们创新和超越的机遇。”

  他提议,项目组要在未来 3 年内,站在数字化、智能化时代的前沿,重新定义 ERP,而非照搬西方国家厂家的产品。ERP 项目的愿景,是要面向未来打造一个真正云化、服务化、自主可控的核心商业系统!

  原样照搬只能永远落后,有样学样的结果很可能是像邯郸学步一样,最后连自己怎么走路都不会了。重新定义 ERP,是一条激荡人心的路,也可能唯一可行的路。

  项目组决定,在基于华为能够获得的软硬件产品基础之上,打破原厂 ERP 架构的思维惯性,大胆应用云原生、元数据多租、实时智能等新技术,通过系统工程创新,用“三流器件”打造一流产品,不仅实现“逃生”的目 标,还要在产品性能上超越原厂 ERP 系统。

  这是一个宏伟的愿景。项目组给华为未来的 ERP 系统取了一个响亮的名字:MetaERP。这个 ERP 将采用元数据(MetaData)驱动的技术架构,大幅提高用户需求定义和灵活编排的响应效率;同时,“meta”直译为“元”,是初始的、为首的、基础性的意思,也包含超越的含义,这也意味着,MetaERP将是对传统 ERP 的一次超越。

  卢强带领架构师团队开启了顶层设计的探索,比如,采取微服务和分布式云化的整体架构,借鉴“书同文,车同轨”的思想统一数据标准,采取 “总体控制”和“业务流”的设计,保障业务与财务数据的一致。顶层设计的每一项策略和原则,很多时候都是在各种困难和限制条件约束之下的无奈选择,也是前人没有做过的选择,但专家团队通过系统性思考,大胆采用新的设计思想,这些无奈的选择往往又被变成最佳选择。

  为了验证这些设想的可行性,项目组决定,先以一家规模中等的子公司作为标靶,开发出一个轻量级的 ERP 系统,率先进行“换芯”验证,“强渡”成功后,再逐步扩展到全球其他区域。

  华为马来西亚代表处位于马来西亚首都吉隆坡的市中心,这里有高耸入云的地标双子塔,有绿草如茵的独立广场,也有充满烟火气的美食街。这里业务发展迅速,差旅便利,也是华为亚太区总部、账务共享中心的所在地。按照ERP 项目计划,ERP 替换的首场“强渡”战役将在这里打响。

  在马来西亚的首场“强渡”是一项协同作战任务,主要工作大都在网络空间完成,吉隆坡、深圳、成都、西安等地的项目成员将用一年的时间来验证和试点 MetaERP。切换时间定于 2021 年年中。

  侯军是成都账务共享中心的一名会计,他在华为财务的不同岗位已经工作了十多年,先后在深圳、阿根廷工作,如今回到成都,这里的生活节奏让他很是惬意。他以为自己会继续这样下去,在天府之国过着波澜不惊的生活。

  从成都飞往深圳的途中天气很好,他透过舷窗看到蜿蜒的河流、连绵的群山以及一条条高速公路交织而成的优美线条,猜想着此行的种种可能,但一直没有头绪。

  刚到深圳,侯军就被叫到一个封闭会议室。满满一屋子人,他只和其中一位同事打过照面。双方眼神一交会,立即明白,两人都不知道接下来要干什么。会议一开始,领导就强调保密原则,并给每人发了一份文件,要求大家现场签订保密协议,侯军脑海中立即浮现出电视剧中研发“两弹一星”的场景。

  像侯军一样,数以万计的华为员工为保障业务连续,已经习惯了被拉进各种紧急项目,一种在无形中弥漫的危机感促使大家不问缘由、不讲条件地努力工作。那段时间,华为内部到处都贴着一张“烂飞机”照片,这是二战中苏军的一架伊尔-2飞机,被打得像筛子一样仍在安全飞行。这张照片激励着大家努力“补洞”,ERP系统就是这架“烂飞机”上的一个“大洞”。

  陈薇林是一个不甘于现状、喜欢挑战的人。制造项目接口人找他沟通,问他是否愿意加入ERP项目,至于参加项目做什么,暂时不能透露。联想到当时的外部环境,他大概猜到了要做什么,义无反顾地加入了团队。

  一天下午,终端的王如刚突然接到主管的电话:“如刚,有个重要的保密项目需要人牵头,这个项目要求很高,我们评估你最适合,你有没有兴趣?”王如刚二话没说,直接应允下来。到了项目组,他才知道自己要负责所有终端相关的 ERP 系统测试。

  姚娇龙加入项目组的第一感受是“华为太疯狂了,太敢了”,她突然觉得自己站在了时代的风口浪尖,内心非常激动。但她很自信:“我们这段工作的小浪花,注定要被写入华为公司甚至中国软件产业的发展史之中。”

  唐志高是一个在技术上很有追求的 IT 男,他认为,经过多年积累,华为已经具备了足够的能力。他在心里暗暗憋了一股劲儿:我们不比任何人差,要做就做一个超越原有系统的软件。他在办公室里大喊:“程序员的春天来了!”

  财经、供应链、采购等业务部门都在尽最大努力调配资源,将资源优先投入 ERP 项目,大量经验丰富的业务专家加入了进来。

  多家与华为长期合作的咨询公司,在短时间内提供了上千份简历,协助筛选了近 20 名来自世界各地的顾问加入项目组。

  在软件上和我们长期合作的伙伴公司,也通过各种渠道挖掘资源,召回有 ERP 项目经验的老员工,将优质资源向 ERP 项目倾斜。

  “若有战,召必回。”退休员工闻讯,也纷纷表示愿意贡献力量,十多位退休员工返回公司,以独立顾问身份加入了项目组。

  各团队加大了专业人员招聘。流程 IT 人力资源部组建了一支特别招聘队伍,通过各种渠道,累计浏览了 5 万多份简历,联系了 1 万多人,经过面谈交流,前前后后共吸引了 300 多名优秀人才入职。 短短几个月时间,一支上千人的团队集结到位。

  这是一次紧急动员,也是一次自发的动员。华为过去很多重要的变革项目,大都需要在公司层面大张旗鼓地宣传动员,项目经理还得拿着“令箭”,请求业务部门投入资源,而 ERP 项目可能是唯一一个不需要动员的变革项目。

  危机下的恐惧感和紧迫感,是变革项目最主要的驱动因素。ERP 项目是一个自带危机感的项目,就像华为其他很多业务连续性项目一样,在美国制裁令被签署的那一刻,主要的动员工作其实就已经完成了。尤其当项目目标与个人价值能够无缝匹配时,这种危机感就自动转换为使命感,即使是一群平凡的人,也能迸发出巨大的热情与创造力。

  ERP项目共设立 12 个子项目组,投入 1800 人,高峰期有 3000 多人,管理体系庞大、运作复杂。由于项目工作具有临时性、跨领域等特点,如何让这个超大团队有序运作、不打乱仗,朝着共同的目标前进呢?

  常栋有丰富的变革项目管理经验,作为 ERP 项目一线作战“司令员”,他知道,变革项目是一把手工程,领导力是变革的第一生产力,当务之急是把项指挥系统建立起来。在华为,一般变革项目组都会单独成立一个领导组,负责重大事项决策。常栋一盘点,发现 ERP 牵涉面太广,基本涵盖了公司各大领域,这个领导组不好组建。

  “那你干脆不要搞领导组了,就把 ESC(变革指导委员会)作为项目领导组,我们来给你站台。”ESC 主任对他说,“这是 ESC 管 IFS(集成财经服务)最重要的项目,如果说未来几年我们只做一个变革项目,那就是 ERP 替换。”

  有了领导层的坚定支持,常栋和 ERP 项目经理张晓燕设计了大兵团作战的三层指挥系统:第一层是 ESC 会议层,负责项目方向和重大事项决策,并构建 ERP 项目领导力,凝聚共识;第二层是项目经理会议层,负责方案、范围及资源投入决策,推动项目关键问题解决及风险决策;第三层是项目交付例会层,负责管理项目落地执行,通过纵向产品管理和横向业务流管理,做好“整车”拼装。

  这是一个高效的扁平化指挥系统,实现了项目从战略到战术的执行贯通,保障了项目团队令行禁止、使命必达。

  随着深入项目,遭遇各种难题,项目组成员最初的热情开始消退,信心不足的问题开始浮现。上千人的组织运作,如何让上下形成共识,统一思想,凝聚团队力量?常栋认识到,各模块产品经理是团队执行力的关键,把这一层骨干的思想做通,消除他们的畏难情绪,相应队伍的执行力就会大幅提升。他决定要不断地给这一层主管强化项目愿景。项目组开展了 20 多场次的研讨会、动员会,不断凝聚共识,强化信心。

  2020年年底,首场“强渡”的各项准备工作正在紧锣密鼓地推进,一场大规模的“ERP 项目启航大会”召开了。会场设在培训中心主楼,在能容纳 200 多人的阶梯教室里,红底白字的大幅标语格外醒目—“不相信有完成 不了的任务,不相信有克服不了的困难”。这次动员会有一个宣誓环节,因此,这些平日里不修边幅的 IT 人都穿上了西装,打上了领带,显得格外精神。有人在座位上不停地转动脖颈,拉扯衬衣,显然,他们还没有习惯穿正装。

  “ERP替换项目的来源是为了活下去,但我们绝不仅仅是为了活下去,而是要面向未来,打造全球最具竞争力的云原生企业管理平台。”常栋的讲话很有鼓动性,“最理解华为 ERP 20 年建设历程与发展脉络的就是我们这群人, ERP 项目相当于华为的‘两弹一星’项目,我们不能把这个大难题留给下一IT 人,而是要让他们从一开始就能够甩开桎梏,昂首阔步向前走。”

  “ERP替换不是逃生,而是新生!”这句掷地有声的话,获得了全场与会者的热烈掌声。大家起立宣誓:“作为 ERP 变革项目组的成员,我们深刻理解项目的愿景和使命,我们承诺,保证在 2021 年完成马来西亚子公司的切换验证。除了胜利,我们无路可走,请项目组全体人员监督。”

  每一次会议都像是一次“充电”,鼓舞人心的演讲、热烈的讨论,与热忱在会场中弥漫,团队成员的畏难情绪逐渐消散。

  在大兵团的集结中,每个人都是变革的践行者,都在积蓄变革的力量。他们争执着不完美的方案,精细打磨着每一段代码;他们参加一个个深夜项 目紧急会议,讨论着项目关键节点;他们分工不同,却从不计较是台前还是幕后。会议室的灯光深夜熄灭后,空气中还留存着刚刚激烈讨论的余温。

  马来西亚子公司 MetaERP 涉及数十个产品模块的开发,各团队通过对老 ERP 系统的解耦,吃透原理,开始构建新产品。承担产品开发任务的是一支支年轻的初创队伍,他们没有丰富的开发经验,却无所畏惧。他们通过开发产品和各种测试,在极短的时间内构建出了新系统的雏形。

  就在各产品模块开发同步推进时,2021 年 1 月,财经应付模块却传来了坏消息—上线测试遭遇失败,有可能拖延整体进度。产品团队迎来了至暗时刻。

  造成测试失败的原因是方案设计存在缺陷,要修复这个缺陷,项目周期可能需要额外增加 3 个月甚至更长的时间。

  压力很快传递到了两位女将身上。一位是 ERP 财经领域负责人刘润玲,另一位是 ERP 项目经理张晓燕。

  刘润玲曾做过多个 IT 产品的架构师,拥有丰富的理论与实践经验,也是一位追求完美的方案设计师。她之所以加入华为,就是因为心中有一个铸造殿堂级产品的架构之梦。在她的领导下,财经 IT 团队总是能够从用户角度出发,用相对完美的方案,实现业务与 IT 的共赢。

  应付模块涉及资金安全,本着谨慎为上的原则,过去 10 年都没有做架构调整,很多新需求是通过不断打补丁来解决的,因此财经领域希望借此次机会,进行一次大的架构调整,一次性解决历史问题。刘润玲也支持这个完美架构,但由于时间紧迫,方案设计存在严重缺陷,无法通过测试。

  现在,有两种选择:一是继续修改完美方案,代价是延长 MetaERP 整体上线时间;二是采取基于原有架构的妥协方案,先保障 MetaERP 在马来西亚子公司上线,以后再解决历史问题。

  张晓燕是一位理性主义者,作为 ERP 项目经理,她的压力来自项目整体进度和风险管控。她认为,保障切换时间是第一要务,有多种方法可以使 IT系统跑起来,哪怕这是一个不完美的方案。

  两位女将各执一词,谁也说服不了谁。于是,她们决定各自寻求同盟军。刘润玲找到总体组专家沟通,他们也认同新的架构方案,站在了她的一边。张晓燕去找财经领域主管沟通,优先保障项目按时上线,也得到了对方的理解。

  刘润玲再次提出她的完美方案,张晓燕再次反对:“大家不要把产品架构 和功能实现的权重看得过高,ERP 是一个系统工程,产品建设只占三分之一,数据割接和验证同样重要。我们要综合考虑项目进度。”

  决策会开了将近三个小时,刘润玲三次哭着走出会议室,哭完了再回来争论。最终,她妥协了:“为了项目的整体进展,我服从集体决策,但是我保留自己的专业判断。”

  刘润玲哭红的眼睛里带着委屈,但语气坚定。在集体利益和个人判断之间,她画了一条线,接受妥协方案的同时,保留了内心的完美追求。

  刘润玲是一位职业经理人,知道自己必须尽快转换角色,保证项目成功。应付模块的七八十名开发人员在武汉办公,有些还是合作伙伴员工,上线测失败后,大家都觉得拖了项目后腿,无形的压力笼罩着团队。刘润玲变成了妥协方案的布道者,不仅给开发团队宣讲方案,还要做大家的思想工作。

  为了给团队打气,刘润玲和常栋一起到武汉和大家沟通。晚上聚餐,到了 19 点半,饭桌上的大部分人都戴上耳机,开始开例会,盘点当天的测试问题单。常栋站起来说:“弟兄们,大家能不能先停一分钟,先一起敬杯酒。实在脱不开身的,就赶紧吃饱回去加班吧。”

  应付模块的测试投入了 160 多人,使用了 5 万多个测试用例,大家都在争分夺秒,要把耽误的时间赶回来。

  团队承受着巨大的压力和矛盾的心理。一方面为了质量达标,希望做更多更细致的测试,另一方面是每天都在增长的遗留问题数。

  “大家跟我走,一起去武汉现场,将问题攻关清零。绝不能拖项目后腿!”刚接管应付模块开发的产品经理梁立平带队前往中国光谷支援,每天奋战到凌晨两三点。光谷位置比较偏,有人家养鸡,大家常常是在鸡鸣声中进入梦乡。

  刘润玲每天都在关注高水位的问题数量,她把自己的办公位搬到了应付项目组,与团队一起熬夜测试。她没有责怪团队,反而组织部门活动,强制大家休息调整,让大家紧绷的神经得到放松,舒缓了长久以来的疲惫。

  张晓燕也搬过来帮忙,她专门组建了一个测试团队,与刘润玲并肩作战,帮她协调周边资源,缓解应付团队的压力。

  应付产品终于度过了至暗时刻,在最后关头追赶上了大部队。这个不完美的方案,经过失败与重生的重重磨砺,终于站了起来。

  后来,在MetaERP于马来西亚成功上线后的第二天,刘润玲找到常栋沟,还没开口,她的眼泪就掉了下来。这时常栋才知道,在项目攻关的关键 阶段,刘润玲的母亲身患重病,她挤不出时间照顾母亲,觉得很愧疚。现在,项目有了阶段性进展,她申请退休,回家照顾母亲。

  在大家眼中,刘润玲是一位广受尊敬和喜爱的同事。员工们都亲切地称呼她为润玲姐,认为她是最好、最美的领导。即便在团队有 200 多人的时候,她仍然记得住每位员工的名字;即使常常忙碌到深夜,她也要挤出就餐时间与团队成员交流。她的退休决定让所有人都觉得惋惜……

  而对张晓燕来说,她即将迎来一次大考——MetaERP在马来西亚子公司上线。几千人没日没夜的努力,几千项任务的协同管理,无数缺陷、问题与风险处置,都要在这一刻得到验证。而马来西亚子公司的这场首战,也和真实战场上的遭遇战一样,是在没有准备好的情况下就打响了。张晓燕心里清楚,在华为,任何困难都不是借口,目标是不能动摇的,人拉肩扛,也要把这个山头拿下来。

  上线前的几个月是关键的测试联调期。各产品模块基本就绪,就像是一个个零部件已经运到了总装厂,要拼装成一台可以交付给客户的整车。作为“装配厂厂长”,张晓燕清楚地知道,现在的“总装线”还处于手工作业阶段,只能靠人海战术进行测试,拼出 MetaERP 的第一个版本。

  何能志是从采购到付款业务流的运营经理,经过亲身实践,他设计出了一个测试程序:在一楼看完采购测试人员完成下单及验收,立即跑到三楼,跟进财经测试人员完成匹配及付款,如果出现故障,就地赶紧解决。另外,他每天早上 9 点召开晨会,讨论每个场景的测试进展;17 点开晚会,讨论产品遗留问题,雷打不动。何能志苦中作乐,把这套运作方式命名为“人肉测试线”。像何能志这样的“人肉测试线”还有几十条,供应、采购、工程、行政……涉及公司各部门,还有跨区域的线上接力,每个环节都要跑通。

  2021年 7 月至 8 月,项目组完成了三轮上线演练。每次演练的夜晚都是一个不眠之夜,近500人投入业务验证中,全要素反复验证和演练,确保所场景都准确无误。

  9月 10 日 14 点,MetaERP 在马来西亚子公司上线。张晓燕发布动员令:“从 MetaERP 项目立项至今,我们一共走过了 630 天,一共有 1700 人参与,这次上线 个任务项。MetaERP 项目是一场大会战,我们每个人都为之骄傲与自豪,希望大家共同努力,为首战画上的句号!”

  次日 16 点,完成 34 亿行数据的数据迁移及验证,启动业务小批量验证。马来西亚账务中心的张磊特意留了自己出差的报销单,作为在新系统中的首单作业:填单、审批、审核、支付。“成功了,这是 MetaERP 付款中心的第一单!”大家欢呼雀跃。张磊说:“这单报销是我一辈子的记忆和骄傲。”

  “首渡”能否成功,最后一锤要看数据湖的切换是否顺利。数据湖是业务分析、财务报告的数据源,数据切换如果出错,业务分析就会中断,财务报告也将无法出具,这将直接导致 ERP 切换失败。

  9月 11 日至 12 日,数据湖要完成 300 亿行数据的初始化,这是一场耗时30 小时的持久战。

  11日 15 点,收到总体组通告,交易侧已完成初始化,数据湖的切换正式开始。但是,在初始化环节,一个个小问题就不停地出现,一次次敲打着每个人的心弦:

  张晓燕来到数据湖切换的作战室,与大家一起审视问题,协同专家解决。好在之前经过多轮演练,大部分问题都有成熟预案,得以逐一解决。

  “数据抽取又出状况了。”12 日凌晨 4 点,在数据整合层的初始化启动后,换遇到了大表性能问题。

  上午10点,张晓燕打电话给项目负责人,询问数据抽取的预计完成时间,得到的答复是 14 点。14 点再次询问,却说要到 16 点,实际上 18 点都没完成。延迟时间在不断拉长,2 小时、4 小时、6 小时……张晓燕着急了,把专家们一个个“吼”到了数据湖项目组。30 多人的团队集中在一起,沿着数据 链路逐项排查。深夜,万籁俱寂,ERP 作战室依旧灯火通明,人声鼎沸,问题排查工作依旧胶着。随着上亿行数据的反复验证和执行策略的艰难决策,数据一个一个出来,最后一个数据验证终于在 22 点完成,财经月报比对正式启动。

  深夜 2 点,张晓燕已经连续奋战了 36 个小时,安排好后续工作后,她才拖着疲惫的身体来到了公司附近的酒店。

  这次终于听清楚了—“情况是这样的,从新系统抓取数据出错,新老订单系统的数据无法整合,虽然只涉及 38 行订单,但是财务报告容不得半点差异,系统可能面临回退!”

  她当时有点蒙,心里快速盘算着,系统是不可能回退的,交易已经放开了,回退就意味着上线失败。她脸都没顾得上洗一把,就一路小跑回到了切换现场。她环顾了一下四周,看着一张张疲惫的面庞,坚定地对大家说:“没有退路,只能向前,相信我们一定还有办法挽救。”

  在她的快速统筹下,供应、财经、数据湖领域的专家们迅速集结到位。大家都是头一回遇到这个问题,多少有些不知所措。张晓燕结合自己丰富的项目经验提出:数据问题本质上是数据溯源的问题,只要我们能够追溯到源头,就能找到线头,逻辑自然就能理顺了。

  在她的启发下,供应订单专家快速理清思路,用数据推导的方式快速还原了数据血缘关系,希望瞬间燃起。早上 7 点,项目组关键领导全部到达切换现场,成立了临时“指挥所”。在华为,“指挥所”永远设置在最前线。

  问题处置方案迅速形成了两派。项目组领导建议保险起见,先临时解决问题,上线成功后再择机彻底解决;财经领导认为,此举可能会留下更大的隐患,还是要一次性解决问题。双方一度僵持不下。张晓燕见状立即提议,成立两个攻坚队,给大家两个小时的时间。其中一队主导方案优化,一次性把钉子拔掉,彻底解决;另一队分析临时方案的可行性,在不影响切换的情况下绕过这个障碍。

  作战室顿时忙碌和热闹起来,喊话声、电话铃声、键盘敲击声,此起彼伏。随着时间一分一秒过去,方案逐步清晰,攻坚队员也从最初的焦虑、紧张,逐步恢复了自信。领导们的心情也伴随着现场气氛起起伏伏,他们抑制住想要了解方案详情的急迫心情,没有去打扰攻坚队队员,生怕会打断队员们的思路。

  两小时很快就要结束了。张晓燕恨不得这两个小时有两天那么长,这样就可以给兄弟们更多的时间去思考,让方案更加稳妥;她又恨不得这两个小时像两分钟那么短,这样切换就可以更快一些。30多位专家聚集,让这个大作战室变得非常拥挤,临时攻坚队队长灌了一口功能饮料,开始了推演汇报。张晓燕认真聆听了两个团队的方案推演,并参考现场专家的建议,决定选用临时方案,该方案充分推演了8种典型场景,最终警报得以解除。

  经过一天的平稳运行,15日16点,项目组审视业务验证情况,一切正常,于是宣布:马来西亚 MetaERP 上线成功!

  经过无数的不眠之夜,历经孕育期的惶恐、不适和分娩前的阵痛,在所有人的期待和手忙脚乱中,MetaERP 这个新生命终于诞生了。

  在后来的表彰会上,张晓燕带领大家朗诵了一首集体创作的诗歌,一年多来所有的压力、焦虑与委屈,在这一刻都得到了完全的释放。

  MetaERP 在马来西亚上线成功,给全体项目成员和公司上上下下都带来了极大的信心。但是,马来西亚子公司的业务只占华为整体业务的不到 1%,这个系统还非常脆弱,无法支撑 200 多家子公司的业务量。就像中央红军抢占了安顺场渡口,但只找到一条小木船一样,这样是无法支撑主力部队快速渡河的。红军必须抢夺泸定桥,才能让大部队安全、快速地通过。

  常栋的设想是由易到难:“等在马来西亚上线后,我们总结沉淀经验,先把 100 多家销服型子公司全面覆盖,然后辐射到全球 4 个供应中心,最后来啃中国区这块硬骨头……”

  但当时华为正遭受新一波的制裁,形势越发紧张,在ESC 会议上,领导说:“我们现在的形势越来越严峻了,工具软件也被禁用,照这 个形势下去,ERP 系统的切换时间可能比我们原先设想的更紧迫,我们可能要找到整个链条上最关键的那个根节点,优先替换。大家都说说,对于下一步项目计划的看法。”

  这是一个艰难的抉择,业界在实施ERP软件新版本时,首先要进行试点,而且保险起见,为了催熟产品,新版本最好能经过一到两年的业务运营试用。也就是说,公司如果直接完成中国区切换,就要冒巨大的风险。

  中国地区部销售主管打破了沉默:“从销售侧看,现在海外战场收缩,中国区市场快速增长,整体规模已占到全球近 70%。”

  大家感受到了70% 业务量所带来的压迫感,这更是一次对公司业务而言生死攸关的决策,财经、供应体系主管也各自补充了信息。

  “全球生产物料的采购、关键零部件的生产全部集中在这里,如果老 ERP 系统不能用了,无法保障买得到、造得出、供得上,公司就会真的停摆。”

  “那就切中国区!”一个声音打破了沉闷。安静了几秒后,领导组成员纷纷表示支持,ESC主任拍板,“下一阶段我们就上中国区,没有退路!”

  中国区的这场硬仗,让常栋想起当年的飞夺泸定桥战役。现在,马来西亚子公司成功上线MetaERP,一支小部队已经渡到了河的“左岸”,但大部队还在“右岸”。接下来,团队要架起一座“铁索桥”,即通过技术攻关,提升 MetaERP 系统的性能、容量与稳定性,使之具备支持全球业务的能力。

  所谓元数据,是指描述系统基本属性的数据。如果把 ERP 系统比作一张桌子,元数据就是长、宽、高等基本属性。在传统 ERP 系统中,这些属性的可调整空间是非常有限的。华为老 ERP 系统也因此构建了 490 多万行的定制代码,衍生出 300 多个外部应用,变得越来越庞大,架构难以治理。

  而在元数据多租的架构中,具有共性的元数据被标准化,桌子的长、宽、高是基本属性,但用户可以增加颜色、材质等扩展属性,差异化需求可以做到灵活扩展、个性配置,这样就把 ERP 系统变成了一个开放、可扩展的系统。

  但在讨论过程中,也有不少担忧的声音。有人担心,现在进度本来就很紧了,元数据多租和当前任务冲突严重,项目能顺利完成吗?还有人说,以团队现在的能力和软硬件限制,能把 ERP 系统搞出来并上线,就已经非常了不起了,为什么还要增加难度,引进没有经过验证的新技术,搞砸了怎么办?

  为了消除大家的疑虑,在一次研讨会上,常栋提出了“打造通用产品的七大原则”,统一了元数据多租整改的标准与方向。他说:“各位主管和产品经理在思想和意识上一定要统一,我们要抓住历史机遇,基于元数据打造业界领先的企业数字化平台产品,不断提升产品竞争力,支撑公司未来 30 年的发展。”

  为了确保产品质量,项目组决定紧急刹车,将现有开发任务暂停 3 个月,由于距上线 个月的时间,所有产品团队必须在 3 个月内完成元数据多租整改。

  熊彼特说过,创新就是一个创造性破坏的过程。项目组勇于打破思维惯性的约束,敢于中断本来就捉襟见肘的开发进程,这真是一个疯狂的决定!认准了就勇往直前,所有人奋笔疾书,签下了任务书,开始了覆盖全产品的元数据多租整改。

  经过紧张的整改工作,项目团队成功完成了 32 个业务对象、505 个实体、 1482 个应用服务、544 个页面等元数据的构建及发布,元数据就此全面诞生,为 MetaERP 产品注入了面向未来的基因,让它不再只是一个冷冰冰的软件程序,而是拥有了可以自我和扩展的生命力。

  第二项攻关,是云原生技术。所谓云原生,是指在云计算环境中构建、部署和管理应用程序的软件方法。原厂 ERP 系统由一组大机来承载,云原生则意味着 ERP 系统的数据底座将不再是固定的物理硬件,而是调用云平台的强大计算能力和资源弹性能力,来实现各种场景下的系统功能。

  2021年 11 月的一个晚上。夜已深,ERP 研发作战办公区内依旧灯火通明。突然,啪的一声打破了夜晚的宁静,顿时众人的目光不约而同地聚焦在一处。

  “算不准,还是算不准,这可怎么办?微服务解耦后数据太碎了,一张度科目余额报表,花了 4 小时计算,结果还有误差。”交易核算团队的技术负责人几近崩溃地拍打着桌子。

  “以前老 ERP 系统在大单体结构下,数据都集中在关键的几张表中,现在七零八落,要从十几张表中汇集,这不光影响数据库的性能,数据的准确性还一直在 80% 左右徘徊,怎么办?怎么解决业务数据 100% 一致的问题?”

  “MetaERP是分布式系统,按照布鲁尔定理,保证可用性、容错性的情况下,分布式系统的数据一致性是不可能达到 100% 的。这可是一道世界难题啊!”一位经验丰富的技术人员低声嘀咕,说出了会议室里每一位技术专家的心声。

  刘振羽是 MetaERP 的首席技术架构师,看到大家忧心忡忡,他一时间也想不到好的办法。他想出去抽支烟提提神,于是起身走出办公楼。在经过车库的时候,他看到一辆辆电动汽车在车位上充电,突然有一种茅塞顿开的感觉。他知道,每台电动汽车都有一个集中的电源管理系统,这个系统负责数千颗锂 电池的充电、放电、散热和生命周期管理,非常强大。受此启发,他创造性地提出了ERP“总体控制”的设想,即在各个微服务之上,专门构建一个应用,自动监控数据不一致的现象,一旦发现系统或数据差异,立刻报警,并及时进行干预,这样无限逼近布鲁尔定理的极限,使数据一致性等同于 100%。

  随着研发会战不断深入,华为云的技术攻关也在不断告捷。云的容器起弹速度从最初的每分钟 1000 个容器,提升到每分钟 3000 个,团队提前达成目标,士气高涨。但在接下来的采购订单大单处理的性能测试中,结果却全部没有通过。大家十分着急,加班加点进行攻关,想了很多方法,比如加计算资源、数据库扩容、代码优化,但是收效有限,阻塞情况仍未改善。

  连续几天的攻关,使采购模块技术架构师徐华非常疲惫,他坐在公司班车上,看着窗外飘着的绵绵细雨和拥堵的车流,喃喃自语道:“今天估计要迟到了。”

  “对,就是这个公交车道。如果为不同类型的采购订单划定不同的车道,比如大订单跑慢车道,高优先级的跑快车道,最后再设计一条紧急车道,处理加急订单,同时再结合华为云的容器弹性能力,这样不就最大限度缓解拥堵了吗?”

  到达公司后,徐华立即与团队制订了进一步的实施方案,启动代码优化。经过 3 个月攻关,采购订单的处理终于不堵了。业务端到端的性能指标也从个位数一路攀升到 1000,最终实现了 10 倍业务最大流量下性能不降的目标。自信的笑容又重新回到团队成员的脸上。

  随着联合攻关中一个个技术难题被解决,MetaERP 上华为云的所有技术障碍都被扫除了。经过项目组周密部署,2022 年 5 月,51 个应用、100 多个数据库全部正确部署到贵安华为云,未出现一例错误和遗漏。

  贵安华为云数据中心有一个接地气的名字:云上屯。这是一片五彩斑斓的欧式建筑群,依山势而建,远远望去,俨然一个童话小镇。数据中心是耗能大户,而云上屯充分运用当地自然环境,将绿色和智能技术融入整体设计中,使用瀑布和人工湖水自然冷却,实现了业界领先的能效比。现在,“生于云,长于云”的 MetaERP 系统就运行在这山水间的虚拟空间之中,成为一朵无迹可寻却又无时不在的云彩。

  第三项攻关,是数据库根技术的突破。数据库被誉为“软件皇冠上的明珠”,是 ERP 系统存储和管理数据的核心,其性能和稳定性对系统运行至关重要。华为在数据上有多年积累,也有自研的高斯数据库产品,但 MetaERP在数据库的替换上经历了一波三折,最终通过集中攻关,才取得成功。

  早在 2002 年,华为就开始研发嵌入式内存数据库。2011年,为解决“卡脖子”问题,华为成立高斯部,开始打造完整的数据库产品。高斯是世界上最伟大的数学家之一,享有“数学王子”的美誉,他的成就非常多,单以 “高斯”命名的研究成果就达 110 多项。华为成立高斯部,自然也希望在数据库领域能取得世界级的研究成果。随后几年,高斯部推出数据库产品,并有行客户开始商用。

  但多年以来,高斯数据库的定位是做“备胎”,主要进行技术储备,公司使用的主流产品仍是国际厂家的数据库。2019 年,外部环境发生巨变,保障业务连续性成为头等大事,数据库产品的替代方案也要考虑。已经坐了 8 年冷板凳的高斯数据库,终于迎来了“转正”的机会。

  在 ERP 替换项目启动后,项目组对高斯数据库进行了测试,结论是“无法满足 ERP 要求”,所以最终决策选用开源数据库产品。

  2021年 9 月,项目组在规划中国区切换方案时,认为现有的开源数据库单库容量小,难以支撑中国区庞大的数据量,于是决定转向使用高斯数据库,但提出了极高的性能要求。

  公司成立了数据库联合攻关组,由数据库领域的负责人苏光牛和李玉章牵头,带领近 200 名研发人员,签下了军令状,要在 8 个月内达成目标。

  李玉章调集高斯部精干力量,组建了“博士军团”进行攻关。有长期在 MetaERP深耕的架构师杨迪博士,有在存储引擎技术上打造核心竞争力的任阳博士,有攻克全密态数据库技术难关的郭亮博士,有突破高可用技术瓶颈的王磊博士,有解决数据优化器和执行器、实现系统 10 倍压力下不崩溃的刘梦醒博士……

  其中,任阳博士的突破经历颇具传奇色彩。他小时候家庭条件不好,在上高中时,家里出现变故,父母希望他去工厂做一名工人,但他坚持上学,并发奋读书,考上了重点大学,又继续读了硕士、博士。他做的是偏理论和底层技术的研究,由于担心毕业以后找不到合适的工作,他的内心常常充满焦虑。跨出校门之后,他下定决心要向数据领域发展,并最终如愿应聘进入华为高斯部。但他对数据库完全是个门外汉,入职后面临完全陌生的领域。依靠自己在博士阶段积累的学习能力,他开始梳理并阅读数据库技术文献,一年内学习了上千篇文献,并与内外部不断进行交流碰撞,刷新知识结构,终于踏入了数据库技术的殿堂。任阳博士潜心钻研,花费 5 年时间主导了新一代 Ustore 存储引擎的开发,这是高斯数据库的核心技术之一,是华为与银行客户联合创新的成果,结合了华为在分布式架构上的优势,也是国内首个媲美业界最先进数据库的技术突破。

  经过联合研发攻关,高斯数据库在不到一年的时间内,各项技术指标幅提升,全面甚至超额完成目标:单体数据库容量提升 6 倍, 从 4T 到 24T;可用性从 99.99% 提升到了 99.999%;在系统韧性上,做到了 5 倍压力下性能不下降,10 倍压力下不崩溃;逻辑复制速度提升了 6 倍,达到每秒 300MB……

  在新技术和客户需求的双轮驱动之下,高斯部通过这一场硬仗,为 MetaERP 提供了一个高性能、高可靠的数据仓库。在技术攻关过程中,团队成员也证明了自己的能力与价值,捍卫了“高斯”这个名字的荣誉。

  项目组通过一年的技术攻坚,完善了 MetaERP“身体”的各项机能,在架构层面重新定义了系统,在根技术层面实现了性能提升和自主可控。

  但 MetaERP 并不是一个单一的技术系统,技术并不能带来智慧。要让 MetaERP 这个“大脑”变得聪明,就必须不断地把知识和经验赋予它—将华为积累的流程制度与管理经验和技术能力相结合,把场景抽象成规则,把规则变成可配的系统功能,再把功能用算法和代码来实现,从而形成成熟且灵活可配的产品,支撑全球业务的运作。如果说核心技术的攻关是强健其体魄,企业管理规则的沉淀就是丰富其灵魂。

  袁国林是财经领域业务侧的项目经理。他在华为财经系统工作了 20 多年,担任过会计、审计师、子公司财务总监等多项职务。他带领着一支由 56 位资深专家组成的专职业务团队,这些专家大都在华为工作了 10 年以上,具有丰富的业务管理和项目变革经验。他们调动数千兼职业务人员,负责对财经业务规则进行梳理和验证。

  在财务管理上,华为面临着极为复杂的场景和业务规则。公司在 170 多个国家和地区开展业务,要适应国际会计准则和各国的差异化准则,满足海关、税务、贸易合规等外部遵从要求,这些对 ERP 系统都提出了极高的需求。

  固定资产的折旧计算,是ERP资产模块的一个重要功能。华为折旧计算较复杂,对同一项资产的折旧计算可能同时要满足多个外部要求:集团会计准则政策、本地会计准则政策、本地税务政策。折旧计算的方式都不一样。袁国林对项目组提出了需求,在折旧计算时,能够同时按 3 套规则进行运算。根据这个需求,IT 开发团队设计了新的资产折旧引擎,将多种场景抽象成可配置的折旧规则,新引擎不仅实现了全自动化处理,还能快速响应各国会计政策、税法的变化,实现多折旧规则下的集成与法人口径的折旧计算。

  成本模块支撑着华为上千亿元的存货交易计价,涉及多产业和 200 多家子公司的复杂交易处理。在存货计价规则上,集团成本与子公司成本的计算方式也不一样,袁国林团队也把这些规则输出给IT 团队,IT 团队新开发了满足多计价方法、多成本口径的成本计算引擎。

  与此类似,用于记账的会计引擎模块沉淀了华为在全球 100 多个国家和地区会计遵从的实践经验,以及内部各大差异化产业的精细化核算规则,形成了一套完善的会计实务方法,并构建了应对多会计准则的能力,运行以来,实现了核算规则运行零差错,年结日均 3000 万行分录平稳处理,结账没有延迟一秒钟,也没有算错一分钱。

  在供应领域、采购领域、服务交付领域,另有一群“袁国林”,带着各自领域的业务专家团队干着相同的事业,他们梳理场景、抽象规则,共同铸就 MetaERP 的灵魂。

  华为南方工厂位于东莞松山湖高新技术产业开发区,是公司全球供应、采购、制造的主要基地,MetaERP 中国区切换所涉及的核心业务,就在这座工厂。这里有十多栋整齐划一的超级厂房,内部有各类先进的自动化生产与物流设备,偌大的生产线上几乎见不到人影;在巨大的屋顶上,布满了太阳能光伏发电面板,为工厂提供源源不断的绿色能源;而在厂房之外,有着蜿蜒的中央湖景、精致的小瀑布,以及安静的休闲漫步区。第一次来访的人常常感到恍惚,这到底是花园还是工厂?经过技术攻关和业务规则梳理,现在,中国区 MetaERP切换的“铁索桥”已经在这里准备就绪,但主力部队如何过桥,仍然面临两难选择。

  大型企业在升级或切换ERP 系统时主要有两种方法:一是全量切换法,好处是数据完整、能平滑支持业务,但切换难度大、时间长,往往需要两周以上,对企业运营影响较大;二是余额切换法,即只切换余额和未结业务数据,历史数据保持在老系统中,通常可在几天内完成,对业务影响较小,但切换后数据不完整,影响业务效率。

  单进是华为资深的 ERP 专家,严谨务实且富于思辨精神,历经海外 ERP统推行、IFS 等变革项目,对 ERP 系统有着深刻的理解,并多次参加华为过去的 ERP 系统升级,对各个环节熟稔于心。ERP 项目成立后,单进被任命为首席解决方案架构师,他的一项重要任务,就是牵头准备系统切换方案。

  “最多只有 7 天。”常栋给他透了底。ERP 系统每停机一天,供应链上亿 的设备无法发运,上亿的款项无法收付,7 天是公司能够容忍的最长停机时间。

  ERP系统切换一般包含两部分,即系统部署和历史数据迁移,前者是在应用系统上做配置,并与周边系统打通集成,后者则是把业务数据搬迁到新数据库中,让业务能跑下去。单进的初步想法是把原先串行化的系统部署和数据迁移并行,而两者之中数据迁移尤为关键,中国区的业务量是马来西亚子公司的 100 倍。为此他满怀希望地求助于技术专家刘振羽,希望通过增强硬软件的方式压缩迁移周期。

  然而,刘振羽当场就给他泼了一盆冷水:“基于现有的硬软件水平,在极致优化的情况下,迁移中国区的历史数据至少要两周。”