近日,信息学院系统与网络课题组(sngroup)的一项研究成果《beyond a centralized verifier: scaling data plane checking via distributed, on-device verification》被国际会议acm sigcomm'23录用。该研究成果提出了一种分布式网络设备数据平面自验证框架,是厦门大学首篇以第一单位被acm sigcomm录用的论文。
采用集中式架构设计的数据平面验证工具需要一个可以时刻保持验证器与网络之间可靠互联的管理网络,同时,集中验证器也会成为性能瓶颈与单一故障点,因此集中式数据平面验证工具无法适用于数据中心、环球广域网等大规模网络。为了克服此难题,论文提出了一种分布式的网络设备数据平面自验证框架,其核心思想是将复杂的数据平面验证问题转化为有向无环图上的简单计数问题,从而将算力/内存密集型的集中式验证计算分解为轻量的设备级验证子任务,并下放到网络设备上分布式执行,从而实现对任意规模网络的快速、高效数据平面网内自验证。本框架由四个核心部件构成:(1)基于正则表达式的高级声明式网络不变量规格语言,该部件支持管理员高效且灵活地表达常见的网络不变量规格;(2)验证规划器,该部件将管理员指定的网络不变量与网络拓扑进行有限自动状态机乘法,得到有向无环图dvnet,并以此系统地将复杂的全局验证任务分解为设备上的轻量级计数子任务;(3)分布式验证消息协议,该部件定义相邻的网络设备间如何有效、可靠地交换各自的计数子任务结果,从而实现网络不变量快速、高效的网内自验证;(4)不变量容错验证机制,该部件通过在dvnet计算过程中引入链路失效场景预计算,在最小化验证规划器重新规划频率的同时,实现链路失效场景下的网络不变量快速分布式网内自验证。
实验结果表明,本框架能够在41秒内对一个拥有超过6000台交换机的大型数据中心网络完成全量验证,比目前最快的集中式验证工具flash快了7.4倍。同时,在80%的增量验证实验中,本框架与目前最快的集中式验证工具相比,最高可以实现2355倍的验证加速。
该篇论文的第一作者是信息学院向乔教授,由信息学院计算机科学与技术系2021级硕士生黄晨阳、文日娣、王宇昕、2022级硕士生范晰雯、马里兰大学alan liu教授、上海交通大学孔令和教授、耶鲁大学本科毕业生dennis duan、ibm watson研发中心franck le研究员和德州大学奥斯汀分校博士毕业生孙威共同完成。
更多信息见厦门大学系统与网络课题组尊龙网平台主页:
图文:文日娣、黄晨阳/ 投稿:向乔