数据血缘特征血缘追溯的主要作用和好处包括以下几点:
定位影响特征效果的断流数据:
- 快速排查问题:特征生产链路上的数据表或任务异常会造成特征数据断流,通过加工链路数据表和任务结点监控,可快速分析下游影响面及对线上模型的效果影响。
- 提前预警处理:从事后断流治理转变为提前预警介入处理,有效减少模型表达能力减弱和效果下降的风险。
评估对特征产生价值的数据源:
- 理清数据源贡献:通过特征数据源表的关系,可以理清对特征产生作用的数据源表,并进行价值评估和分成。
- 推动有效数据接入:了解哪些数据表被用到、哪些没有被用到,有助于更好地推动有效数据的接入和拓展。
收敛数据表生产降低资源成本:
- 提高数据表复用性:通过特征溯源,可以合并特征生产链路上相似的数据表,减少重复加工,提高数据生产效率。
- 降低机器资源成本:提高数据表的复用性不仅减少了数据开发的工作量,还降低了机器资源的消耗。
获取有效的特征血缘图谱:
- 记录数据链路关系:数据血缘图谱记录了数据从产生到消亡的全生命周期中的链路关系,有助于看清数据的流转过程。
- 辅助特征溯源工作:血缘图谱中的节点和边分别代表数据表和计算任务,为特征溯源提供了基础数据支持。
特征溯源的应用场景:
- 直观定位异常:在特征生产链路数据和任务异常时,可以直观定位并发现异常,及时通知下游依赖表、任务及特征负责人干预处理。
- 重点监控核心数据:对热门应用数据源表和对主力模型增益价值高的特征进行重点圈定和监控,保障其稳定性。
- 收敛中间表:基于特征溯源,对相似中间表进行合并同类项和相似表裁剪,提高数据复用率、降低数据开发成本。