周明在中央研究院六號会议室的白色长桌上铺开了三份文件。第一份是天枢os数据治理框架的现状描述——一份由郑工团队花了三周时间从全部接入天枢os的系统中梳理出来的数据流拓扑图,图上密密麻麻標註著从產线传感器到临床標註终端到生態应用日誌的每一个数据节点,总计超过六千个。第二份是联合检测验证工作组第二次技术磋商后发来的正式质询清单,其中第三条明確要求未来科技说明其內部数据治理规则的统一性和可审计性。第三份是李明哲从日內瓦发来的一份备忘录,標题只有五个字:“审计是护城河。”
“补天v1的发布证明了我们的设计工具链可以被外部验证,追光產线合规验收证明了製造端的透明化,天罡生態兼容標准第二版证明了生態规则制定的开放性。”周明把三份文件並排摆好,抬起头看向会议室里的每一个人,“但所有这些『可验证性』都建立在一个共同的底座上——数据。如果我们的数据治理规则本身不统一、不透明、经不起审计,那么底座一旦被证明有裂缝,上面盖的所有楼层都会晃动。”
坐在会议桌对面的郑工面前摆著一台笔记本电脑,屏幕上显示著天枢os数据採集模块的架构图。他把架构图投到会议室的大屏幕上,用雷射笔圈出了六个不同顏色的数据域。红色的是製造域——追光產线的全部设备传感器数据、工艺参数和良率记录。蓝色的是设计域——补天工具链的代码提交日誌、仿真结果和版图叠代记录。绿色的是医疗域——神农ai的心电波形原始数据、標註记录和模型训练日誌。黄色的是生態域——天罡os的设备激活日誌、应用崩溃记录和街边店技师反馈数据。橙色的是金融域——產业扶持基金的评审记录、资金流向和项目进展报告。紫色的是法务域——合规审计日誌、合同条款变更记录和跨境数据流动审批单。
“六个域,六种数据格式,六套採集协议,六个存储集群。”郑工的雷射笔在每个色块上停了一秒,“但如果你去问这六个域的数据治理规则分別是什么,答案是不一样的。製造域的数据保留周期是三十六个月,医疗域是二十四个月,生態域是十八个月。製造域的访问审批需要三级签字,医疗域需要二级,生態域只要一级。製造域的数据脱敏標准用的是国標,医疗域用的是欧陆医疗器械標准,生態域用的是天罡os开发者协议里附带的数据处理条款——那个条款还是两年前法务团队一位实习生写的初稿。”
郑工说完后,会议室里沉默了几秒。秦教授最先打破了沉默。他面前放著一份神农ai临床验证流程的文档,是安德松教授访问合城后留下的那份推荐信的附件。“医疗域的数据治理规则之所以和製造域不一样,不是因为没人想统一,而是因为医疗数据的合规要求本身就和工业数据不在一个框架里。欧洲医疗器械標准对临床数据的存储期限要求是至少五年,而不是二十四个月。如果我们强行把医疗域的数据保留周期拉到和製造域一样,等於在欧陆合规审查中自断手脚。”
“问题不在於六个域的规则不一样。”周明站起来走到屏幕前,用手指在六个色块之间画了一条虚线,“问题在於,这六套规则从来没有被整合成一套统一的元规则。什么是元规则?就是不论数据来自哪个域,所有数据都必须遵守的共同底线——比如,任何数据的採集都必须有明確的目的说明,任何数据的访问都必须留下不可篡改的审计日誌,任何数据的跨境传输都必须经过独立合规官的批准,任何数据治理规则的修改都必须经过一个跨部门的治理委员会投票表决,投票记录对外公开。”
他在屏幕右侧空白处写下三行字,每一行字都像是一条法律条文那样简短有力。第一行:採集有目的,存储有期限,访问有记录。第二行:治理规则本身被治理——规则的制定、修改和废止过程全程留痕,接受外部审计。第三行:数据主权归数据產生方所有,任何数据共享行为必须在可独立验证的授权框架內进行。
方程从新加坡通过视频接入,他在屏幕上的小窗口里听完周明的三条元规则后,把天罡生態兼容標准第二版起草时用过的“十四条起草原则”调出来放在旁边做参照。“兼容標准第二版的核心经验是——规则一旦不再由单一主体单方面定义,规则的权威性就会从制定者身上转移到规则本身。数据治理细则的制定可以沿用同样的联合技术委员会机制,在委员会里引入独立的外部委员参与投票。”
周明把这个建议记在了会议纪要里,同时加了一个更激进的条款——数据治理委员会中,外部委员的比例不低於三分之一,外部委员从星环科研奖励机制学术委员会、联合检测验证工作组认可的独立审计机构和补天计划高校团队中遴选。这个比例设定意味著未来科技在任何涉及数据治理规则的修改中都不拥有绝对多数票。
林薇从中央研究院封闭开发区拨进视频时,正在天权6號的功耗仿真数据前做最后的收敛验证。她听完周明的提议后没有討论外部委员的比例,而是直接切入了数据治理细则中最核心的一个技术难题——数据脱敏標准的跨域统一。“製造域的晶圆缺陷分布数据、设计域的版图层数数据、生態域的用户行为日誌,三者的脱敏要求完全不一样。如果把製造域的数据脱敏標准强行套到生態域上,生態数据里的异常功耗触发条件——就是阿贡发现的那种——就会被脱敏算法当作『异常值』自动抹掉,而这些异常值恰恰是我们做质量改进最有价值的信號。”
郑工敲了几下键盘,屏幕上弹出一张表格。表格里列著六个数据域中每一种数据类型在脱敏处理中的最小颗粒度要求。製造域的晶圆缺陷坐標精度可以脱敏到五十微米而不影响工艺分析,设计域的版图数据需要脱敏到標准单元级別才能保护设计机密,生態域的用户设备型號必须保留完整而不能被泛化——因为阿贡发现的基带晶片功耗异常只有在特定设备型號和特定运营商频段组合下才会触发,一旦泛化就丟失了定位故障的全部线索。
“脱敏標准不能一刀切。”郑工说,“但脱敏標准的制定过程可以一刀切——不论哪个域,脱敏规则的制定、审批、修改和生效日期都必须走同一套治理流程,每一条脱敏规则的背后都必须附著明確的业务理由和风险评估,且全部留痕。”
周明在会议纪要上写下数据治理细则的第一条核心条款草案:“数据脱敏標准由各数据域负责人根据业务需求提出,经数据治理委员会审议批准后生效。每一条脱敏標准均需附带业务必要性说明和风险评估报告,审议过程保留完整记录,记录对外公开。”
討论进入数据访问权限分级时,秦教授提出了一个让在场所有人都不得不正视的问题。神农ai的临床数据目前採用的是二级审批——数据使用者提交申请,经秦教授和医院伦理委员会两位委员共同批准后即可获取脱敏后的数据。但安德松教授在访问时无意中发现,神农ai的模型训练日誌——不是原始临床数据,而是模型在训练过程中的中间参数更新记录——同样被纳入了二级审批的范围。这个设计导致赵静团队在做预调度模型与神农ai的联合调优时,每一次调参都要等至少两个工作日的审批周期。
“临床原始数据的严格审批是对的。”秦教授说,“但模型训练日誌的安全级別不应该和原始临床数据一样。把两者的审批门槛拉平,表面上是提高了安全標准,实际上是降低了研发效率——而且这种降低不会换来任何实质性的安全保障,因为模型训练日誌里根本没有可追溯的个人信息。”
周明把这个问题放大到了全部六个数据域。追光產线的设备传感器数据、补天工具链的代码提交日誌、天罡os的应用崩溃记录——这些数据的敏感级別各不相同,但目前的访问审批规则大多是在各自为政的状態下临时设定的,有的过於宽鬆,有的过於严格,几乎没有跨域的一致性。
他提出的解决方案是在数据治理细则中建立一套三级数据访问权限体系。一级是公开数据——任何內部员工和签署了数据使用协议的合作伙伴均可直接访问,包括设备稼动率匯总统计、天罡os装机量公开数据、补天工具链的公开文档和基础模块代码。二级是受限数据——需经数据域负责人审批后方可访问,包括產线工艺参数的详细记录、晶片设计版图的非核心区域数据、生態应用的非敏感用户行为统计。三级是受控数据——需经数据治理委员会全票批准后方可访问,包括晶片设计版图的核心电路区域数据、神农ai的原始临床数据、用户个人身份关联数据和產业链供应商的核心工艺参数。
这套三级体系的命名直接沿用了天罡edge接口安全分级的框架——不是巧合,是周明刻意为之。他在会议桌上摊开了天罡edge接口三级安全分级体系的文档,指著上面“一级公开、二级受限、三级受控”的分类標籤说:“天罡edge的安全分级已经在联合检测验证工作组那里作为参考基准案例。数据治理细则沿用同一套分级逻辑,可以最大限度减少外部审计的理解成本——审计方不需要重新学一套新的分类体系,只需要確认同一套逻辑是否被一致地应用到了数据治理领域。”