中央研究院封闭开发区入口处的倒计时牌翻到“距样片回片14天”的那天凌晨,赵静在终端前坐了整整七个小时。屏幕上是天权6號预调度模型在负四十度低温冷启动场景下的全部仿真数据——准確率百分之八十六点三,比高温端的百分之九十一点二低了將近五个百分点。她把低温端的每一帧功耗曲线与高温端做了逐点对比,发现了一个让她后背发凉的现象:低温端的预测误差不是隨机的,而是系统性地向功耗低估方向偏移。预调度模型在低温下持续低估gpu核心的峰值功耗,最大低估幅度达到了百分之九。
“低温下模型以为晶片会省电,但实际上晶片在低温下有些模块反而更耗电。”赵静在凌晨三点给张京京发了一条语音消息,声音因为连续熬夜而沙哑,“根因是载流子迁移率在低温下升高,电晶体开关速度变快,但互连线的电阻温度係数是正的——线在低温下电阻变小,信號传输变快,两条路径的加速比例不一致,导致时钟偏斜在低温端发生了和高温端完全不同的分布形態。物理时钟偏斜方案在高温下压住的那几个泄漏源,在低温下反而被开关速度的不对称变化重新激活了。”
张京京在天亮时分赶到中央研究院,手里拿著一份刚列印出来的物理时钟偏斜方案低温仿真报告。报告上的数据验证了赵静的判断——总线尖峰压制效果在负四十度下降了百分之四,不是电路设计的问题,而是低温下时钟树各分支的延迟比例与常温標定值產生了系统偏差。她设计的物理时钟偏斜方案基於常温下的时钟树延迟模型来设定偏斜补偿量,当温度降到负四十度时,时钟树中不同金属层互连线的电阻温度係数差异导致各分支延迟变化不均匀,原本被精確抵消的尖峰重新冒了出来。
“物理层的低温非线性和算法层的低温非线性是同一个根因的两个表现。”张京京把两份数据並排放在桌上,“时钟树延迟模型在低温下失效,导致物理偏斜方案的压制效果下降;预调度模型在训练数据中低温样本不足,导致算法层对低温尖峰的预测出现系统性低估。两条路径的问题都在低温端暴露,不是因为设计有缺陷,而是因为我们从未在真实硅片负四十度的环境下测过时钟树各分支的实际延迟值。”
林薇在早上八点到达封闭开发区时,赵静和张京京已经把低温端的全部数据整理成了一份双路径协同失效分析报告。报告的结论只有一段话:物理时钟偏斜方案和ai预调度模型在常温至一百二十五度范围內协同效果良好,但在负四十度至负二十度低温区间內,两条路径的压制效果同步下降,联合压制能力从常温下的峰值压制率百分之九十一降至低温下的百分之七十三。根因是时钟树延迟模型的温度依赖性未被纳入双路径协同的联合標定流程。
“这个问题能不能在样片回片之前解决?”林薇看完报告后直截了当地问。
“物理层的低温补偿可以在三周內完成。”张京京展开一张电路草图,上面画著一组她连夜设计的自適应偏置校准电路的改进方案——在时钟树的每一个关键分支节点上增加一个温度感知单元,用片上温度传感器的实时读数动態调整偏置补偿量,使物理时钟偏斜方案在负四十度到一百二十五度的全温度范围內都能维持总线尖峰压制效果。“但改版需要增加大约零点一平方毫米的晶片面积,功耗预算需要额外分配大约零点零三瓦给温度感知和补偿电路。这两个数字都在设计裕量之內。问题是时间——金属层改版从设计交付到新批次样片到手至少需要八周。样片回片只剩两周,不可能在回片前做完硬体改版。”
“硬体改版赶不上样片回片,但仿真可以。”赵静把自己终端上的预调度模型架构图打开,图上標註著她计划在两周內完成的低温重训练方案。补天工具链联合攻关的高校团队中,唐教授在调度算法验证时用到的嵌套分解框架给了她启发。她將预调度模型从单一的全温度范围模型拆分为三个子模型——低温段(负四十度至零度)、常温段(零度至七十度)和高温段(七十度至一百二十五度),每个子模型独立训练,推理时根据片上温度传感器的实时读数自动切换。三子模型拆分后,低温段的训练数据不足问题用物理仿真数据增强来解决——將张京京的时钟树低温延迟模型產生的仿真数据作为低温段子模型的补充训练样本。
“物理仿真数据增强。”林薇把这个方案记在笔记本上,“用物理层的低温延迟模型生成仿真数据,餵给算法层的低温段子模型做训练。物理层模型虽然在低温端有偏差,但这个偏差是系统性的、可量化的——我们可以在训练数据中注入已知偏差的边界条件,让算法层学会在物理层偏差的约束下做最优预测。”
赵静在三小时后完成了三子模型架构的代码框架。她將五百颗晶片的极限温度重训练数据按温度区间重新划分——低温段的数据量只占总数据量的百分之十二,远不足以独立训练一个深度神经网络。但她发现张京京提供的时钟树低温延迟仿真数据与已有的低温实测数据在功耗曲线形態上高度相关,皮尔逊相关係数达到零点九一。用仿真数据做数据增强在方法论上是成立的——前提是仿真数据的偏差边界被明確標註並纳入训练损失函数的设计。
张京京在当天下午把时钟树低温延迟模型的全部仿真数据打包发给了赵静。数据包的注释栏里写著一行字:“仿真数据偏差边界:负四十度条件下,仿真延迟值与预期实测延迟值的偏差估计在正负百分之七以內。偏差根因是互连线金属晶粒结构在低温下的尺寸效应未纳入仿真模型。该偏差在仿真数据中被保留而非人为修正——保留偏差是为了让算法层学会在不確定的物理层之上做鲁棒预测。”
赵静看到注释后给张京京拨了一个內线电话:“你保留偏差的思路是对的。如果你人为把仿真数据修平了,算法层学到的是一个被美化过的物理世界,上了真实硅片遇到你没修掉的偏差反而会措手不及。偏差留在数据里,模型才能学会在偏差存在的情况下仍然做出正確预测。”
低温段子模型的训练在接下来的七十二小时里连续运行了六轮。第一轮训练用纯实测数据,低温段准確率从百分之八十六点三只提升到百分之八十八点一——数据量不足导致过擬合。第二轮到第四轮逐步混入物理仿真增强数据,混合比例从一比一调到三比七,准確率在第四轮突破了百分之九十。第五轮在损失函数中加入了偏差边界约束项,准確率提升至百分之九十一点五。第六轮將偏差边界约束项的权重进一步调优,最终低温段准確率稳定在百分之九十二点一。
比高温段的百分之九十一点二高出了將近一个百分点。这个结果让赵静在终端前愣了半分钟。她原本的目標是让低温段追平高温段,没想到反而超出了。根因在於低温段的物理特性虽然更复杂,但这种复杂性在张京京提供的仿真数据中被部分地捕获了,算法层通过数据增强获得了比高温段更丰富的训练样本多样性。
“低温段的准確率超过了高温段。”赵静在进度对帐会上把这个结果投到大屏幕上,“这说明预调度模型的瓶颈不在算法本身,而在训练数据的温度维度覆盖。高温段的百分之九十一点二是我们之前用五百颗晶片的极限温度重训练得到的结果,当时低温数据只覆盖了零度以上。现在把零度以下的数据补进去,整个模型的温度鲁棒性上了一个台阶。”
章宸听完赵静的匯报后没有先做评价,而是转向张京京:“物理层的低温补偿方案在样片回片后需要多久能落地?”
“金属层改版设计交付到新批次晶片到手至少八周。但如果样片回片后的低温实测数据能验证我现在的仿真偏差边界,八周后的新批次可以把低温端的总线尖峰压制效果恢復到常温水平的百分之九十八以上。”张京京把低温补偿电路的改进方案投到屏幕上,设计图纸上的温度感知单元被標註为“自主可控”——全部电路元件都在国產工艺的设计规则內,不依赖任何外部ip。
“双路径协同的全温度覆盖方案正式定案。”章宸在会议纪要上写下结论,“物理层在样片回片后启动低温补偿电路改版,八周內完成新批次交付。算法层在样片回片前完成三子模型架构的全温度范围仿真验证,回片后用真实硅片数据做最终校准。两条路径在样片回片日分別给出各自在首批硅片上的实测功耗曲线,三天內完成全温度范围的双路径协同联合测试。”
林薇在章宸总结完后补充了一个製造端的衔接动作。天权6號的首批样片將在追光四期的工艺线上完成晶圆製造,然后送恆芯封装试產线完成先进封装。追光四期的洁净室温控精度已经从正负零点五度压缩到了正负零点二度——这个精度在常温段对工艺参数的影响已经降到最低,但恆芯封装试產线的热固化工艺在低温测试环境下的表现仍然是未知数。她要求在样片回片后的全温度测试方案中增加一项封装热应力隨温度变化的监测指標,为严教授正在攻关的多尺度耦合求解器提供第一批真实数据的校准基准。
“这个监测指標可以直接纳入联合攻关计划封装热力学组的课题进度表。”林薇说,“严教授的简化版多尺度模型原本的交付节点是六周后。如果我们能在样片回片后三天內把首批封装热应力隨温度变化的数据发给他,他的模型校准周期可以压缩至少一周。”
章宸批准了林薇的提议,並追加了一条指令:天权6號样片回片后的全部测试数据——功耗、时序、热应力、封装可靠性——在完成內部分析后四十八小时內同步开放给联合攻关计划各课题组。数据开放的范围和格式按数据治理细则的三级体系执行,原始测试数据標註为“受限级”,经脱敏处理后的统计摘要標註为“公开级”,核心电路区域的详细测试数据標註为“受控级”。
“这是数据治理细则在真实晶片项目上的第一次全面落地。”章宸在会议纪要的末尾写道,“天权6號不仅是第三代自主架构的工程验证,也是整套可验证技术体系——从数据治理、到工具链透明化、到学术界联合攻关——在单一產品上的集中压力测试。”
距离样片回片十天时,赵静完成了三子模型架构的全温度范围联合仿真。仿真的覆盖范围从负四十度到一百二十五度,温度步进为五度,每一个温度点上的功耗预测准確率全部记录在案。全温度范围內的平均准確率达到了百分之九十一点八,最低准確率出现在负三十五度——百分之八十九点七,最高出现在六十五度——百分之九十三点二。准確率曲线在负三十五度出现了一个浅谷,赵静追踪到谷底对应的功耗场景是gpu渲染管线和npu推理引擎同时满负荷运行——两个最耗电的模块在最不利於散热的中低温区间內同时触发,预调度模型在预测它们的协同功耗尖峰时仍然有大约百分之零点五纳秒的时序对齐误差。
“这百分之零点五纳秒的误差不是算法能解决的。”赵静把分析报告发给张京京,“两个模块的功耗尖峰在时间轴上的对齐关係,最终取决於它们在晶片內部物理版图上的相对位置和电源分配网络的寄生参数。这是物理层的版图设计决定的,算法层只能预测到模块级,预测不到版图层面的电源噪声耦合。这个残余误差需要物理层在新批次的金属层改版中做最后的闭环。”
张京京收到报告后,在低温补偿电路改版方案里追加了一个细节设计——在gpu渲染管线和npu推理引擎的电源域之间增加一组去耦电容的预留位置。去耦电容本身不增加功耗,但可以在版图层面吸收两个模块同时触发时產生的电源噪声尖峰,从物理上消除那百分之零点五纳秒的时序对齐误差。这个修改不需要改变rtl,只在版图层面做局部调整,增加面积约零点零五平方毫米。
“两块最耗电的模块之间的电源噪声耦合,用两个去耦电容解决。”张京京在改版方案的备註中写道,“这不是精密科学,是工程常识。但工程常识只有在看到算法层跑出来的数据之后,才知道在哪里加电容、加多大的电容。”
赵静看到张京京的备註后在终端上笑了。她和张京京合作了大半年,从最初的各自为战——算法层只管预测、物理层只管压制——到后来张京京写下那句“物理层解决物理层能解决的问题,算法层解决算法层能解决的问题,两层之间不互相等”,再到现在算法层跑出来的数据直接指导物理层在哪里加去耦电容,两条路径已经从协同变成了融合。
她把双路径协同的完整方案整理成一份终稿,標题是“天权6號功耗管理双路径协同方案v3.0——全温度范围定案版”。方案的扉页上写著三行核心结论:算法层三子模型全温度范围平均准確率百分之九十一点八,推理延迟二点五纳秒;物理层自適应偏置校准电路加低温补偿,全温度范围总线尖峰压制率常温百分之九十五、低温百分之九十一(新批次改版后预计达到百分之九十八);双路径联合压制下的gpu全工况实测功耗——基於仿真——四十五点七瓦。
四十五点七瓦。这个数字比四个月前全工况实测的四十六点三瓦又压下了零点六瓦。剩下的零点三瓦是仿真无法覆盖的版图级电源噪声耦合和封装级热应力对功耗的二次效应,赵静在报告中坦诚地標註了这两项残余误差的来源和量级,並註明“待样片回片实测数据校准后闭环”。
林薇在审阅终稿时把四十五点七瓦这个数字圈了出来,在旁边写了一个批註:“四十五点七瓦的仿真值在实测中可能上浮百分之二到百分之三——如果代工厂的实际工艺参数和设计套件有偏差。偏差校准预案已就位——用天枢os產线管理系统的全量工艺数据反向校准设计套件,校准后的模型输入补天工具链时序分析模块重新签核。这套方法在追光四期首批全国產替代晶圆试產时已验证过。”
章宸在终稿的批准栏签了字。他把文件锁进天权6號项目的主档案库,然后打开天罡生態大会筹备组的共享文档,在议程草案的第二天上午加了一项新內容:“天权6號功耗管理双路径协同方案——技术公开报告”。报告的摘要將在大会上对外发布,全文纳入联合检测验证工作组的“技术安全性”维度验证材料更新件。
“把功耗管理方案的完整方法论公开,不是为了证明天权6號有多省电。”章宸在加这项议程时对陈醒说,“是为了证明我们在晶片设计中最敏感的技术细节上,也在执行『可验证』的標准。功耗数据不是自己说了算,而是把模型架构、训练数据来源、仿真偏差边界、残余误差的来源和量级全部摊开,让任何有能力的第三方都可以復现验证。”
陈醒的回覆在五分钟內到了:“同意公开。但公开的內容要包括低温端的残余误差——四十五点七瓦不是终点,零点三瓦的版图级噪声耦合和封装热应力效应还没有闭环。把未解决的问题也公开,才是完整的『可验证』。”
距离样片回片七天时,张京京完成了低温补偿电路的版图设计终稿。新批次的金属层改版方案已经交付给代工厂的生產计划系统,排產时间窗口定在样片回片后的第三周。恆芯的罗工在同一时间报告了封装国產化试產线的好消息——硅通孔间距在最新一批试產晶圆上稳定在了六点一微米,距离六微米的目標只差零点一微米。孟总在恆芯的生產日誌上写了一句:“零点一微米,最后一脚。”罗工带著三名造芯学院毕业的驻厂第二梯队在试產线旁守了三个通宵,用天枢os的工艺参数动態调整算法把刻蚀时间的控制精度从正负零点三秒压缩到了正负零点一秒,硅通孔间距的批次一致性从正负零点五微米压缩到了正负零点二微米。
“六点一微米。距六微米一步之遥。”罗工在发给林薇的日报中写道,“这零点一微米不是设备精度的问题,是刻蚀工艺参数和硅片来料晶向偏差之间的交叉敏感度还没有被完全標定。给我两周,用天权6號样片回片的同一批硅片跑刻蚀参数正交实验,把交叉敏感度標定出来,六微米就可以写入量產標准。”
林薇把罗工的日报转发给严教授,附了一句话:“硅通孔刻蚀工艺参数和硅晶向偏差的交叉敏感性——这正好是多尺度耦合求解器从纳米级界面力学到微米级结构力学之间的一个典型的多尺度问题。天权6號样片回片后,恆芯可以提供至少二十组不同晶向偏差的硅片刻蚀实验数据,作为您多尺度模型在微米级尺度的校准基准。”
严教授的回覆在半小时內到了:“二十组不同晶向偏差的实验数据——这是我在任何学术期刊上都没见过的数据量。给我数据,我两个月內把微米级尺度的模型校准做完。”
倒计时五天。合城產业园进入了样片回片前的最后衝刺。追光四期给天权6號的首批样片预留了专用的工艺窗口,老韩在排產计划上把天权6號的晶圆批次標註为红色优先级。郑工將天枢os產线调度引擎的监控重点临时调整为天权6號专用窗口的工艺参数实时追踪,任何偏离规格的工艺参数波动都將触发即时预警。梁志远在追光四期中控室的值班表上把自己的名字排在了样片加工当晚的夜班栏里。