算力网络

算力网络综述

2025-11-05 60 次观看 Administrator
算力网络综述

Computing Power Network: A Survey

文本基于: Y. Sun, B. Lei, et al., “Computing power network: A survey,” China Communications, 2024, vol. 21, no. 9, pp. 109-145. DOI: 10.23919/JCC.ja.2021-0776 ; 原文: https://ieeexplore.ieee.org/abstract/document/10495806

摘要

算力网络(CPN)作为一种解决传统网络架构无法高效利用分布式计算资源(由于计算力孤岛效应)的新型网络计算范式。算力网络通过网络连接普及且异构的计算资源,能够灵活地进行计算任务调度,从而提高网络效率。

引言

随着第五代(5G)移动通信网络的发展和人工智能(AI)技术的快速进步,各种新兴应用应运而生,例如增强现实(AR)、虚拟现实(VR)、工业互联网、车联网(IoV)、物联网(IoT)等。根据Cisco的最新报告[1],到2023年,连接到IP网络的设备数量将是全球人口的三倍,预计网络化设备将达到293亿个,而2018年这一数字为184亿。

这些新兴应用和网络设备的爆炸式增长带来了对网络传输能力和计算处理能力的巨大挑战。为了应对这一挑战,提出了移动边缘计算(MEC)概念,并将其改名为多接入边缘计算(MEC)。MEC可以将云计算资源下沉到网络边缘,如基站或网关,成为解决终端设备计算资源有限和通信链路繁忙的有效方案。

随着MEC技术的成熟,MEC与AI的结合使得边缘智能(Edge Intelligence)逐渐进入视野。边缘智能指的是在无线网络的边缘部署AI算法、技术和产品,它是一个集成了网络、计算、存储和应用等核心能力的开放平台。边缘智能的提出强调靠近数据源并在边缘设备上部署智能,从而减少智能云计算服务交付的延迟,并为用户提供更快速、更高效的智能服务。边缘智能的愿景是实现无线环境的智能感知、快速的智能决策和实时响应。在边缘智能场景中,计算密集型和低延迟敏感型服务越来越多,跨行业的大规模AI算法应用需要巨大的计算力资源。

然而,单一计算节点的计算能力是有限的,这主要是由于硬件基础设施的计算瓶颈。因此,有必要部署普及的计算资源。

随着计算力资源池和智能终端设备的大规模普及部署,用户能够更方便、更快速地访问和利用分布式计算资源[2]。然而,现有的计算力资源池和具有计算能力的终端设备在地理位置上是分散的,且缺乏有效的协调方式来优化边缘计算节点之间或边缘计算节点与云计算节点之间的资源调度,这导致计算资源利用率较低。另一方面,由于计算任务被分配到计算能力有限的单一计算节点,处理延迟较高,即出现计算力孤岛效应,这可能无法满足用户的需求。更糟的是,由于计算任务在空间和时间上的分布不均,可能会出现负载不平衡的现象。

网络的发展为灵活提供多方计算资源奠定了基础。随着软件定义网络(SDN)、网络功能虚拟化(NFV)和网络切片等新兴网络技术的发展,计算资源可以通过网络高效且动态地连接。

为了应对上述问题,提出了算力网络(CPN)的概念,用于协调普遍分布的计算资源。

算力网络的核心目标是智能地、按需地、动态地和高效地调度计算资源,打破MEC时代的计算力孤岛效应。文章总结了从云计算到算力网络的不同计算范式的比较,主要特点如下:

  1. 分布式计算节点的部署:CPN中,许多计算节点部署在用户附近,这使得计算任务不再需要像云计算那样传输较远的距离。同时,CPN通过网络连接和协调普遍的计算资源,提供比孤立的MEC节点更多的计算资源。因此,CPN相比云计算带来更低的传输延迟,且相对于MEC带来更低的计算延迟,从而实现超低延迟任务处理。此外,MEC在实际测试中并未有效减少延迟,这是因为其网络架构固化的问题。

  2. 信息感知和共享:分布式计算节点能够获取更多关于计算任务和网络状况的信息。同时,信息可以在CPN中普遍的计算节点之间共享,使得CPN具备强大的信息感知能力。

  3. 应用场景的转变:在云计算时代,一些主要公司(如阿里云、Azure)为用户提供计算服务;在MEC时代,运营商部署计算节点在网络边缘,主要为能源和计算资源有限的IoT设备提供服务。然而,在CPN时代,每个具有计算能力的联网设备都可以成为计算力的提供者。例如,IoV中的每辆车不仅是消费者,还是计算力的提供者。

  4. 资源的隔离与协作:云计算和MEC时代是计算资源和存储资源的孤立承载体,而CPN将升级当前的网络架构,更有效地利用这些孤立的资源。

算力网络(CPN)通过智能调度和资源协调,打破了传统计算架构的限制,能够更好地满足现代计算任务对低延迟、高计算力的需求。

相关工作

自2019年提出以来,算力网络(CPN)受到了广泛关注。本节将从标准化和学术研究两个方面对算力网络的相关工作进行综述。

标准化方面

在标准化方面,互联网工程任务组(IETF)于2019年2月成立了计算网络研究小组(COINRG),致力于研究计算与网络的深度融合。计算网络意味着网络基础设施不仅具备转发功能,还具备计算能力。IETF发布了计算优先网络(CFN)的场景和需求[3]、CFN框架[4]及CFN报告[5]。与此同时,网络运营商和设备厂商(如华为等)推动了国际电信联盟(ITU-T)第13研究组(SG13)中的Y.CPN-arch[6]、Y.IMT2020-CAN-req[7]等标准化工作。2021年7月,ITU-T提出了Y.2501,即Y.CPN-arch[8]。此外,ITU-T第11研究组(SG11)启动了关于算力网络信令要求的Q.CPN标准化工作[9],以及关于边界网关智能控制信令的Q.BNG-INC标准化工作[10]。宽带论坛(BBF)于2019年启动了“城市计算网络(MCN)”项目(SD-466),旨在研究城市网络中的算力网络,并在2021年发展成为MCN草案(WT-466),重点关注云计算和边缘计算节点的部署。中国通信标准协会(CCSA)和5G产业技术创新联盟也在算力网络标准化方面开展了研究工作,并在“网络5.0技术标准化推进委员会”下成立了算力网络专项工作组[12]。此外,CCSA TC3发布了关于算力网络需求和架构的报告,并从2019年至今推动了相关研究工作。自算力网络概念提出以来,已有多篇白皮书探讨了算力网络或称为计算感知网络(CAN)的相关内容[13-16]。同时,终端计算感知网络(TCAN)的概念也被提出[17],并且有作者提出了四个特点和三种网络形式。

学术研究方面

在学术研究方面,[18]首次提出了算力网络的概念。作者研究了云计算、网络和边缘计算协同工作的算力网络方案,并分析了其在计算力抽象、服务保障、统一控制和弹性调度等方面的特性。文献[19]则展示了算力网络技术方案如何高效满足未来6G业务在计算、存储和网络方面的多级部署和灵活调度需求。文献[20]介绍了CFN的基本架构和工作过程。文献[21]提出了一种基于云、边缘和网络深度融合的计算网络方案,称为“计算优先网络”(CFN),并详细阐述了CFN的技术框架和路由协议。文献[22]中,作者详细阐述了边缘计算和算力网络的主要技术挑战和前景。由于边缘计算的分布式架构,使其更容易受到攻击。此外,客户端越智能,系统越容易受到恶意软件的攻击。未来,需要从三个方面推动算力网络的研究:即从计算和网络管理分开到统一管理的网络架构,选择最佳传输路径到共同选择最佳传输路径和计算节点的新网络协议,以及从网络度量到联合度量网络和计算力的新标准[23]。文献[24]中,作者提出了一种新的网络虚拟化架构,基于计算、存储和传输多维资源的融合,适应未来网络中基本资源的普遍性、智能网络服务和多样化业务需求的趋势。

算力网络作为一个新兴的领域,正受到学术界和行业的广泛关注。相关工作不仅在标准化方面取得了显著进展,还在学术研究中深入探讨了算力网络的架构、技术挑战和应用前景。随着技术的不断进步,算力网络有望成为未来网络架构中重要的组成部分。

调研的新颖性与贡献

据我们所知,本调研与以往的工作不同,首次全面介绍了算力网络,包括其定义、架构、优势、功能模型、平台、关键技术、应用和使用案例,以及开放挑战和未来研究方向。本文的主要贡献总结如下:

  • 算力网络功能架构概述:文章对算力网络的功能架构进行了概述,并阐明了算力网络的优势。

  • 算力网络关键方面的综合调研:全面介绍了算力网络的关键方面,包括计算力建模的方式,信息感知与发布的方式,智能资源管理的最优策略,基于分段路由IPv6(SRv6)的网络转发方式等。此外,还提出了算力网络的交易平台和资源协调平台。

  • 算力网络测试平台的构建与评估:本文构建并评估了算力网络的测试平台,综合总结了算力网络的应用和使用案例。还指出了算力网络的关键技术支持,包括多接入边缘计算(MEC)、软件定义网络(SDN)、网络功能虚拟化(NFV)、网络切片、Docker容器、分段路由IPv6(SRv6)和人工智能(AI)等技术。

  • 开放挑战与未来研究方向:识别了算力网络相关的开放挑战与未来研究方向,包括计算力建模、信息同步、移动性增强、能源消耗、确定性超低延迟等问题。

本文的创新性在于,它不仅全面介绍了算力网络的各个方面,而且系统地总结了该领域的最新研究成果和技术挑战。通过对算力网络架构、平台、技术、应用及未来方向的详细探讨,本文为学术界和行业提供了一个清晰的研究框架和前沿视角。

研究结构总结

本文从以下几个方面组织和探讨算力网络(CPN)的研究内容,并构建了其全面的概览框架(如图1所示):

  • 第II节: 详细阐述了算力网络的概念,介绍了其功能架构,并分析了算力网络的优势。

  • 第III节: 调研了算力网络中的计算力建模,包括计算力测量目标、基础设施计算力建模、任务需求建模以及计算力分级。

  • 第IV节: 探讨了算力网络中的信息感知与发布,包括用户信息、计算节点信息和网络链路信息,并详细说明了信息发布的三种方式。

  • 第V节: 综述了智能资源管理方案,包括计算-网络资源注册与管理、计算任务卸载及服务编排。

  • 第VI节: 引入了基于SRv6(Segment Routing IPv6)的智能网络转发机制。

  • 第VII节: 介绍了算力网络的交易平台与资源编排平台。

  • 第VIII节: 总结了实际构建的算力网络测试平台,并提供了一些评估结果。

  • 第IX节: 分析了算力网络可能的应用场景和用例,包括TCAN(终端计算感知网络)、云游戏、车联网(IoV)、智能城市以及AI模型训练。

  • 第X节: 调研了算力网络的多种关键技术,例如多接入边缘计算(MEC)、软件定义网络(SDN)、网络功能虚拟化(NFV)、网络切片、Docker容器、SRv6及人工智能(AI)。

  • 第XI节: 阐述了与算力网络相关的开放挑战与未来研究方向,包括计算力建模、信息同步、移动性增强、能源消耗、确定性超低延迟等问题。

  • 第XII节: 总结了本文的核心观点,并为方便读者提供了术语缩写表。

算力网络概述

算力网络(CPN)旨在解决传统移动边缘网络架构无法充分利用分布式计算资源的问题,通过深度整合分布式计算资源与网络,实现资源的高效协调。本章主要介绍了算力网络的定义、功能架构以及优势。

缩写摘要


什么是算力网络

算力网络的核心思想是连接分布式计算节点,使其能够动态感知用户需求和多维资源(如应用、网络资源、计算资源和存储资源)。其目标是智能分配和调度计算任务,使应用能够按需调用不同位置的计算资源,从而满足超越5G或6G时代的新兴应用需求。

  • 深度集成: 算力网络代表了端-边-云-网络深度整合的新范式,也是边缘计算向普适计算演进的新阶段。

  • 功能提升: 除了传输数据外,算力网络还支持传输分布式计算资源,结合AI、边缘计算和新一代移动通信技术,形成更新的网络架构。


算力网络的功能架构

算力网络的架构分为六个主要功能层:

  1. CPN基础设施层:

    • 包含计算基础设施(如CPU、GPU、MEC服务器)和网络基础设施(如WiFi、5G基站、智能网关)。

    • 支持端-边-云之间的分布式计算资源部署,实现低延迟、高隐私的计算资源连接。

  2. CPN资源池化层:

    • 对多级计算、存储和网络资源进行标准化建模和抽象,形成计算资源池、网络资源池和服务资源池。

    • 支持动态部署和微服务整合,但需重点解决资源异构性和隐私问题。

  3. CPN资源信息发布层:

    • 负责收集资源池化层中的信息并在整个算力网络中同步。信息同步可通过三种方式实现:集中式、分布式和混合式。
  4. CPN计算调度优化层:

    • 根据用户的移动性需求、计算需求、网络需求和延迟需求等,结合资源信息,进行智能调度和资源分配。

    • 应用算法如强化学习、深度学习和机器学习,目标是优化任务处理延迟、资源利用率和网络管理灵活性。

  5. CPN服务层:

    • 针对未来的计算密集型和低延迟敏感型AI应用,提供各种AI算法(如CNN、LSTM)和AI平台(如TensorFlow、Pytorch)。

    • 服务分为系统服务(如计算力监控)和用户服务(如自动驾驶、健康监测)。

  6. CPN编排与管理层:

    • 实现计算力建模、运维管理(OAM)、资源编排和服务编排,并负责安全性管理。

    • 提供统一的资源度量标准和计算力调度策略。


算力网络的优势

与当前移动边缘网络架构相比,算力网络(CPN)在多个方面具有显著优势,具体如下:

  1. 超低延迟

    • 算力网络能够基于相应协议实时感知用户任务的计算需求、网络状况和计算节点的资源状态。

    • 通过实时信息执行智能且快速的任务调度,尤其适用于计算密集型和低延迟敏感型应用。

    • 端-边-云的普遍计算资源可高效协同,为用户任务提供超低延迟服务。

  2. 高资源利用率

    • 算力网络通过普遍的网络连接,协同端-边-云中的异构计算资源。

    • 任务可以灵活调度,从而有效解决计算节点负载不均导致的资源利用率低下问题。例如,有三个计算节点,其中一个承担了三个计算任务,而其他两个节点没有任务。通过算力网络,这些任务可以被智能调度到其他计算节点,优化资源利用率。

  3. 一致的用户体验

    • 算力网络能够感知普遍的计算资源和服务,使用户无需了解计算资源的具体位置和状态。

    • 通过计算资源与网络资源的协同调度,算力网络确保用户体验的一致性。

  4. 灵活动态的服务调度

    • 基于虚拟网络技术,算力网络可以在合适的计算节点动态部署服务。

    • 根据实时网络状况、计算资源状态及服务级协议(SLA),算力网络可实现动态服务部署,优化用户体验。

计算力建模在算力网络中的应用

计算力建模是算力网络中实现计算力调度、管理和交易的基础工作。以下将从计算力测量目标、基础设施建模、任务需求建模及计算力分级等方面进行详细说明。


计算力测量目标

为了根据用户计算需求提供差异化服务,必须对计算力进行量化。根据不同的算法和计算数据类型,计算力可以分为以下三类:

  1. 逻辑计算力:

    • 逻辑计算力是一种通用计算能力,主要以中央处理器(CPU)为代表。

    • CPU擅长处理逻辑控制操作,通常使用TOPS(每秒万亿次操作)作为计算力的度量单位。

    • 由于其缓存设计,CPU并不适合大规模并行计算。

  2. 并行计算力:

    • 并行计算力适用于统一数据类型的应用场景(如文本、语音或视频处理)。

    • 图形处理单元(GPU)是并行计算的典型硬件,常用于大数据处理、图像处理和后台服务器任务。

    • FLOPS(每秒浮点计算次数)通常用来衡量并行计算力。

  3. 神经网络计算力:

    • 神经网络计算力主要服务于计算密集型应用,例如机器学习、深度学习和深度强化学习。

    • 代表性硬件包括深度学习处理单元(DPU)、神经网络处理单元(NPU)和张量处理单元(TPU)。

    • 同样使用FLOPS作为测量指标。

补充测量目标: 除上述硬件计算能力外,计算力还可以通过缓存资源、网络性能和服务资源等服务能力进行测量。例如:

  • 模型推理延迟: 用于衡量AI应用的推理效率,延迟越低,用户体验越好。

  • 网络性能: 通过网络数据包延迟变化(PDV)测量。

  • 吞吐量: 模型每秒处理数据量的大小。

  • 帧率(FPS): 处理器每秒传输的图像帧数越高,画面越流畅。


基础设施计算力建模

算力网络中的基础设施包括多种硬件,如:

  • CPU: 适用于逻辑计算。

  • GPU: 适合并行计算任务。

  • TPU/NPU: 专用于加速神经网络计算。

  • ARM: 用于嵌入式边缘设备。

  • FPGA: 具有高计算效率的可编程逻辑硬件。

由于不同厂商生产的硬件架构各异,需要通过统一的量化模型来对异构计算资源进行抽象和建模。例如,通过对历史平均计算力峰值的数值模拟,计算冗余计算力 q,进而评估计算资源池的总计算力。

此外,借助AI和大数据分析技术,可以利用深度学习算法动态量化计算力资源池的计算能力。


任务需求计算力建模

通过构建客户任务需求模型,可将任务需求映射到实际计算力需求。任务的计算力需求与以下因素相关:

  • 任务类型(如人脸识别、自动驾驶)。

  • 数据类型(如文本或视频)。

  • 数据规模及延迟容忍度。

计算任务的处理延迟 τ\tau 可通过以下函数建模:

τ=f(P,S)\tau = f(P, S)

其中:

  • P:表示计算节点性能,包括计算资源、存储资源和I/O资源。

  • S:表示任务的属性(如计算负载 W 和任务规模 D)。

通过函数拟合上述模型,可进一步优化任务的计算力分配,提高客户体验。


计算力分级

随着AI技术和5G的发展,各类智能应用对计算力的需求差异化明显。计算力分级可帮助设计计算力交易平台标准,同时优化调度效率。根据浮点计算力(FLOPS),当前智能应用的计算力需求可分为四个等级:

  1. 超高计算力(>1 PFLOPS):

    • 如视频渲染、VGG16模型训练等。
  2. 大规模计算力(10 TFLOPS - 1 PFLOPS):

    • 如深度神经网络(DNN)训练。
  3. 中等计算力(500 GFLOPS - 10 TFLOPS):

    • 如AI推理任务。
  4. 低计算力(<500 GFLOPS):

    • 如语音识别(DeepSpeech2算法需约2 GFLOPS)。

通过上述分级,算力网络系统可以更高效、智能地调度资源,满足不同应用需求。

算力网络中的信息感知与发布

算力网络中的信息包括用户侧信息、计算节点信息和网络链路信息。对这些信息的实时感知和发布是实现计算力按需、高效、灵活调度的关键。本章详细探讨了如何感知这些信息,以及如何利用和发布这些信息的方式。


用户信息感知

用户信息感知可以实现用户需求与计算资源的更好匹配,这是按需和及时调度计算力的重要基础。用户信息模型主要包括用户移动性信息和用户任务需求信息。

移动性感知

  • 用户位置感知有助于计算任务卸载的智能决策,例如决定任务在哪里和如何卸载。

  • 针对用户移动性,例如用户可能离开当前边缘服务器覆盖范围的问题,计算任务或结果需要在不同边缘服务器间迁移。

  • 通过AI和大数据分析技术,可以预测用户的移动轨迹、方向和速度。这种预测可通过用户位置数据结合机器学习算法(如马尔可夫链、隐藏马尔可夫模型和神经网络)实现,有助于资源负载均衡。

任务需求感知

用户任务需求感知包括以下几个方面:

  1. 任务基本特征:

    • 包括计算数据的规模、类型、最大容忍延迟等。

    • 不同任务对延迟的需求差异显著,例如道路信息处理任务需要超低延迟,而云游戏等娱乐任务对延迟需求较低。

  2. 计算性能目标:

    • 感知任务所需的计算能力类型(逻辑、并行、神经网络)以及处理速度,可以帮助智能调度模型分配资源。
  3. 存储性能目标:

    • 感知任务的存储需求,包括存储容量、能力和质量要求。
  4. 网络性能目标:

    • 任务对网络传输速率、延迟抖动、数据包丢失率等的需求。
  5. 算法性能目标:

    • 感知任务对算法的具体要求(如图像处理、自然语言处理),以及算法的时间复杂度和空间复杂度。

计算节点信息感知

算力网络中的计算资源是异构且无处不在的,包括智能终端、网络边缘设备(如5G基站)和云中心。由于资源分布不均(如某些区域节点空闲,而繁忙区域节点过载),感知计算节点信息对资源调度尤为重要。

感知的计算节点信息包括:

  1. 计算资源信息:

    • 包括计算资源类型(如CPU、GPU、TPU)、总容量和剩余资源。

    • 例如,NPU的计算能力通常用MAPS(保证范围内的平均处理速度)衡量。

  2. 存储资源信息:

    • 包括存储容量、剩余容量和存储类型(如块存储、文件存储)。

    • 感知存储资源质量有助于为任务分配合适的存储。


网络链路信息感知

算力网络中,感知动态网络连接条件(如传输速率、延迟抖动、数据包丢失率)对优化任务卸载路径至关重要。通过网络链路信息,可以构建加权的算力网络连接图,从而高效选择任务卸载的最优路径。

此外,利用深度学习技术(如DNN、LSTM),可以预测用户行为、网络流量以及资源状态,进一步优化实时任务调度和资源分配。


信息发布

算力网络中的计算节点会向最近的计算路由节点或控制器发布计算资源信息和服务状态信息,实时更新后的信息将通过以下三种方式发布:

  1. 集中式发布:

  • 集中控制器(如NFVO)收集全网资源状态并分发路由优化策略。

  • 优点:部署成本低、设备更新周期短。

  • 缺点:较长的延迟。

  1. 分布式发布:

  • 通过分布式协议(如IGP、BGP)实现信息发布,无需集中控制器,具有更快的收敛速度和更低的延迟。

  • 缺点:部署成本高,设备更新周期长。

  1. 混合式发布:

  • 将计算节点分组,在组内采用分布式发布,而关键节点向集中控制器报告信息。

  • 兼顾了经济成本和响应速度。


信息感知与发布是算力网络实现高效资源调度的核心基础。通过对用户、计算节点和网络链路信息的动态感知,以及结合集中式、分布式和混合式的信息发布机制,算力网络能够实现按需、灵活和高效的计算资源调度。

算力网络中的智能资源管理

算力网络中的智能资源管理旨在高效地分配和调度分布式计算资源,以提高用户体验和资源利用率。本章从计算-网络资源管理、计算任务卸载、服务编排及智能资源管理中的AI应用四个方面进行阐述。


计算-网络资源管理

计算-网络资源管理的核心任务包括计算节点的注册和运维管理(OAM)。

计算节点注册:

  1. 注册启动: 当计算节点准备加入算力网络时,提供者需注册节点的参数信息(如芯片类型、资源容量)。

  2. 参数获取: 管理模块收集并记录这些参数信息。

  3. 分发策略: 管理模块将节点参数和任务调度策略分发给智能路由器。

  4. 参数更新: 节点定期更新自身参数信息,并通知管理模块。

  5. 注销节点: 当节点停止提供计算服务时,将从系统中注销。

运维管理(OAM):

OAM模块实时监控计算资源池的性能。当当前计算节点或网络链路无法满足服务需求时,控制器会重新规划网络路径或选择新计算节点。此外,OAM模块还可检测故障并动态切换流量,以确保系统运行的连续性和可靠性。


计算任务卸载

计算任务调度是算力网络中的关键问题,需解决以下主要挑战:

  1. 选择节点: 在多个计算节点中,如何选择最优节点完成任务。

  2. 任务拆分: 对于大规模任务,如何分割任务并协调多个节点协同处理。

  3. 跨域卸载: 在端-边-云协作中,如何分配任务。

  4. 域内卸载: 在边缘节点间协作时,如何分配任务。

优化目标:

  1. 最小化延迟:

    • 通过端-边-云协作,可同时保证低延迟和高计算力需求。

    • 一些研究采用混合整数规划和分布式两阶段卸载(DTSO)策略来优化延迟和能耗。

  2. 最小化能耗:

    • 能效是算力网络的重要评价指标,通过分布式传感器选择框架等方法优化感知、处理和传输过程中的能耗。
  3. 最大化资源利用率:

    • 通过计算卸载解决服务负载不均的问题,并使用深度强化学习(DRL)优化任务分配。

优化策略:

  1. 卸载模式:

    • 任务可以从一个设备卸载到另一个设备(端到端)、从设备到边缘服务器、从设备到云等。

    • 根据任务是否可拆分,可选择全量卸载(不可拆分任务)或部分卸载(可拆分任务)。

  2. 优化方法:

    • 使用凸优化、博弈论和深度强化学习(DRL)等方法优化卸载决策。

    • 博弈论可以设计去中心化算法,使用户独立做出卸载决策。

    • DRL则能提高优化效率,通过与环境交互积累经验进行决策。


服务编排

算力网络通过云原生技术实现服务与底层资源的完全解耦。服务编排支持基于服务的资源调度,主要研究方向包括:

  1. 跨域服务编排: 协调网络和边缘服务的跨域编排。

  2. 微服务编排: 动态部署和管理大规模微服务和服务链。

  3. 动态服务激活: 根据用户需求动态激活或关闭服务,提高资源利用率。

示例: 在有限资源情况下,如果节点上仅能同时激活一个服务,服务编排模型可以根据用户需求动态激活或关闭服务。例如,当用户需要服务1时,关闭服务2;当用户需要服务2时,关闭服务1。


智能资源管理中的AI应用

AI在算力网络资源管理中扮演重要角色,同时算力网络也为AI应用提供支持。

  1. 监控与预测:

    • 使用机器学习算法(如RNN、LSTM)监控运行时指标,检测故障并预测用户请求数量。

    • 图神经网络(GNN)可用于建模动态的计算-网络资源感知。

  2. 多智能体强化学习(MARL):

    • 在资源竞争复杂的环境中,多智能体强化学习可通过分布式决策加速调度效率。

    • 通过与环境交互积累经验,实现更快速和智能的资源分配。

  3. 自主网络:

    • 结合上述AI算法,算力网络可逐步成为自智能网络,无需人工操作和维护。

智能资源管理是算力网络的核心部分,包括节点注册、任务卸载、服务编排及AI驱动的资源优化。通过优化延迟、能耗和资源利用率,算力网络能够在复杂环境中提供高效、灵活和智能的计算服务,满足新兴应用的需求。

算力网络中的智能计算力路由与转发

本章节详细探讨了基于 Segment Routing IPv6 (SRv6) 的智能网络转发机制,这是实现算力网络中计算任务高效路由的重要技术。SRv6 是一种基于 IPv6 转发平面的分段路由技术,结合了 SRH(Segment Routing Header) 的源路由优势和 IPv6 的简单性与扩展性,在算力网络中具有独特优势。


SRv6 的特点与优势

SRv6 提供了一系列独特的功能,包括:

  • 强大的编程能力: 允许灵活定义路由和任务转发规则。

  • 超简化的网络结构: 减少中间节点的复杂处理需求。

  • 与 IPv6 原生兼容: 保持 IPv6 数据包封装结构的完整性,无需改变协议。

算力网络中的路由和转发的核心目标是解决“去哪里(where to go)”和“做什么(what to do)”的问题。因此,算力网络的转发平面报头需要同时封装 IP 路由信息计算服务路由信息,以便实现应用需求与网络转发路径的匹配和映射。


基于 SRv6 的计算力路由与转发流程

基于 SRv6 的路由与转发过程如下(见图7):

  1. 生成路由信息库: 在整个算力网络中发布计算与网络资源信息,生成计算力路由信息库。

  2. 接收初始数据包: 客户端发送第一个数据包,其中包含应用需求信息和目标地址的服务 ID1,数据包被发送至入口路由节点 R1。

  3. 完成服务映射: 入口节点 R1 根据路由信息库完成服务 ID 和服务 IP 的映射,分配出口路由节点 R2。

  4. 任务处理与转发: 计算节点处理客户端任务,并根据步骤3的相同策略继续转发数据。

  5. 后续数据包转发: 后续数据包直接根据转发信息库(FIB)进行转发,无需重复服务映射。


路径选择的关键研究

路径选择是算力网络中计算力路由和转发的核心挑战。由于计算节点分布广泛且连接复杂,传统路由策略难以适应这一场景。

基于 AI 的路径选择:

  1. 网络流量预测:

    • 深度学习已被证明能够有效预测网络流量,为路径选择提供支持。
  2. 在线学习动态更新路径选择策略:

    • CPN 可动态调整路径选择策略,每次路由和转发提供的数据都可以用于下一次学习优化。
  3. 联邦学习(Federated Learning, FL):

    • 在保护数据隐私的同时,通过分布式学习进一步优化路径选择。

自智能算力网络

算力网络本质上支持 AI 原生能力,结合联邦学习、深度学习和在线学习等技术,实现路径选择和资源调度的自智能化。通过这一架构,CPN 不仅能够动态调整路由策略,还能自我优化,提高计算和网络资源利用率,同时保障数据隐私。


基于 SRv6 的智能路由与转发在算力网络中发挥了重要作用。通过结合 AI 技术(如深度学习和联邦学习),CPN 实现了高效的路径选择和任务转发。这种智能化、灵活性和高效性的设计为满足未来分布式计算需求奠定了基础。

算力网络平台

除了对算力网络的理论探讨外,其商业化的工程实现尤为重要。本章介绍了算力网络交易平台算力网络资源编排平台,作为算力网络工程化实施的核心。


算力网络交易平台

算力网络交易平台由算力网络消费者算力网络提供者算力网络管理者组成(见图8)。

组成部分:

  1. 算力网络消费者:

    • 提出对计算资源和网络资源的需求,并请求各种计算服务(如云游戏、增强现实、人脸识别等)。

    • 消费者的性能目标可能包括延迟、安全性、准确性等,某些消费者(如车联网中的移动用户)有特殊需求。

  2. 算力网络提供者:

    • 提供计算资源,包括小规模边缘节点、大规模云节点,甚至超级计算中心。

    • 提供者可能是电信运营商、云服务提供商、边缘云企业,甚至是具有限制计算能力的个人设备。

    • 提供者必须先在交易平台上完成计算资源的注册和认证。

  3. 算力网络管理者:

    • 管理者负责在消费者和提供者之间制定计算服务合同,并处理计算资源的计费。

    • 计费基于计算-网络资源的占用统计,消费者支付费用,提供者根据资源供应获取收入。

区块链技术的应用:

  • 建立可信的算力网络交易平台是商业化的关键。通过区块链技术,交易平台能够提供可信赖的合同管理和透明的资源分配。

  • 文献[68]提出了基于区块链的算力网络框架,用于实现网络中各方的最优策略和最大化预期收益。


算力网络资源编排平台

资源调度平台通过自动化服务部署和资源负载管理,实现高效的业务调度和资源管理,简化操作流程,并保证高网络性能和资源利用率。

平台特点:

  1. 分布式计算框架:

    • 能够适应不断变化的网络环境,支持计算与资源的联合优化。

    • 提供更好的安全性、可用性和故障恢复能力。

  2. 容器集群的优势:

    • 资源编排平台的特性与容器集群优势高度契合,例如灵活的管理和高效的资源调度。

    • Kubernetes(K8S)作为容器管理的事实标准,是未来算力网络资源调度的趋势。

Kubernetes 在算力网络中的应用:

  1. 多集群管理:

    • Kubernetes 可用于一般性的多集群管理,以实现云-边-端的协同资源调度。
  2. 轻量化 Kubernetes 分布:

    • 如 KubeEdge、OpenYurt、Baetyl 和 K3S,专为资源受限环境设计,支持从云端到边缘的数据和服务扩展。

    • 例如,研究[76]评估了 Docker Swarm 和 Kubernetes 容器解决方案在资源受限设备(如 Raspberry Pi)上的性能,为 IoT 网关的高效服务提供了重要支持。

编排平台的未来趋势:

  • 随着计算资源调度需求的增长,Kubernetes 的轻量化版本(如 K3S)可以实现对资源受限环境的精细管理。

  • 通过容器化和自动化,算力网络能够动态调度资源,实现端到端的高效服务提供。


算力网络平台的建设是推动其从理论研究走向商业化应用的关键。通过交易平台和资源编排平台:

  1. 交易平台: 借助区块链技术确保资源分配的透明性与可信性,为消费者与提供者提供安全的交易环境。

  2. 资源编排平台: 以 Kubernetes 为核心技术,支持云-边-端协作,实现高效的资源调度与服务部署,为复杂的计算任务提供灵活解决方案。

这一工程实现框架为算力网络的商业化和普及提供了坚实基础。

算力网络测试平台

为了验证算力网络的实际性能,本文构建了一个原型测试平台(CPN Testbed),通过关键技术实现多种低延迟、高计算密集型应用的性能评估。


算力网络概述

测试平台分为三层架构:终端层边缘层云层

  1. 云层

    • 负责集群管理、数据持久化和网络性能指标监控。
  2. 边缘层

    • 快速处理来自终端的各种推理请求,提供智能服务。
  3. 终端层

    • 终端设备(如笔记本或Raspberry Pi)通过摄像头采集数据并上传至边缘节点处理。

设计目标:

  1. 延迟优化:通过计算卸载策略,最小化请求的响应延迟。

  2. 分布式处理:在集群的边缘节点上部署微服务,确保数据同步、通信稳定及负载均衡。

  3. 智能化:实现智能推理、服务调度及资源管理。

主要微服务:

  • 计算感知: 基于 Kubernetes 官方监控工具 Prometheus 定期收集边缘节点的资源使用情况。

    • 节点资源:计算和存储总量及实时资源利用率。

    • 链路质量:TCP连接的带宽和延迟。

  • 计算信息发布: 使用 ZeroMQ 协议和分布式一致性算法同步边缘节点的计算资源信息。

  • 计算建模: 通过神经网络模型,将边缘节点的实时计算能力映射为响应延迟,支持服务映射。

  • 计算卸载: 以最小化响应延迟为目标,将计算卸载问题转化为加权二分图匹配问题,提出改进的图论算法(GT),实现任务与边缘节点的多对多匹配。


算力网络测试结果

原型平台由4个边缘计算节点(Intel NUC)和终端设备(连接摄像头的笔记本或Raspberry Pi)组成。任务数据通过 gRPC 协议上传到边缘节点处理。以下是主要测试结果:

Figure 11. The computing offloading performance versus the task arrival rate.

1. 响应延迟与负载均衡测试

实验中,测试以下传统边缘计算策略:

  • 本地处理 (LC):所有任务由本地节点处理。

  • 轮询调度 (RR):任务按轮询方式分配给其他节点。

  • 贪心调度 (GR):根据当前节点的最短响应延迟分配任务。

结果分析:

  • RR策略: 保证负载均衡,但无法降低响应延迟。

  • GR策略: 减少了执行延迟,但导致部分节点资源浪费。

  • 改进卸载策略: 相较于RR策略,延迟降低了约25%,同时保持了类似RR的负载均衡性能,远优于GR策略。

2. 灵活性和智能化测试

测试任务吞吐量随节点拓扑动态变化的影响:

  • 在第50个时间点手动移除节点3,并在第200个时间点重新加入集群。

  • 结果:

    • 节点3重新加入后,任务吞吐量在较短时间内恢复到原始性能。

    • 改进的卸载策略能够灵活应对动态网络拓扑变化,并通过任务调度逐渐提升吞吐量。

此外,即使在网络质量较差的情况下,改进策略的性能仍优于传统方法。


未来工作与研究方向

  1. 短期研究:

    • 部署更多异构边缘节点。

    • 实现多集群间的分布式计算卸载策略。

  2. 长期研究:

    • 更新现有网络中的路由和转发设备,通过可编程网络设备实现网络层的计算力调度。
  3. 远期研究:

    • 释放网络设备的部分计算能力,用于计算任务的预处理。

当前的CPN测试平台是算力网络研究的初步原型。随着研究的深入,算力网络需要逐步演化和更新,以实现更加高效、灵活的资源调度和服务提供。

算力网络的应用场景

新兴的计算密集型和低延迟敏感型应用是推动算力网络发展的主要驱动力。随着这些应用对延迟、通信质量和计算能力要求的不断提高,算力网络的应用场景变得越来越丰富。本章总结了以下关键应用和案例。


终端算力网络(TCAN)

随着终端设备计算能力的快速提升,TCAN 提出了一种新的网络范式,旨在充分利用分布式多层次的终端计算资源,建立高效的终端侧计算共享架构。其目标包括:

  • 实现终端计算力感知。

  • 虚拟资源协同、多粒度计算力调度。

  • 安全、隐私和可信的计算力交易。

挑战:

  • 终端设备因电池容量受限且分布广泛,进入或离开网络的频率较高。

  • 通信多为短距离无线通信,设备间协议不兼容。

  • 终端设备的移动性导致计算力调度的可靠性降低。

尽管面临诸多挑战,在未来6G网络中,将终端设备整合到算力网络中的架构前景广阔。


云游戏

随着大规模游戏和图像处理技术的兴起,云游戏(Cloud Gaming)应运而生。云游戏通过在云端渲染游戏画面,并将场景以视频流形式返回给玩家。云游戏对低延迟和高画质的数据流传输要求极高。

CPN 在云游戏中的应用:

  • 小型云游戏: 单个边缘云完成任务计算。

  • 大型云游戏: 边缘云协作处理游戏任务,任务可以动态调度至其他闲置计算节点。

  • 优势:

    • 相比边缘计算,CPN 可在边缘云繁忙时,将任务卸载到其他设备或终端节点。

    • 支持任务分布式处理,提高灵活性。


车联网(Connected Vehicles)

车联网通过整合车辆、传感器和移动设备,支持自动驾驶、车内娱乐及智能交通系统。

CPN 在车联网中的应用:

  • 实时数据分析: CPN 服务器从智能交通灯、路边单元和智能车辆中获取数据,并进行实时分析。

  • 计算任务卸载: 如图15所示,车辆可根据延迟需求,将任务卸载到附近边缘云或其他车辆。

    • 辅助驾驶任务(低延迟敏感): 可动态卸载到最近的空闲边缘云。

    • 车内娱乐任务(高延迟容忍): 可卸载至云端。

  • 优势:

    • 相比边缘计算,CPN 支持车辆之间的任务卸载,降低延迟。

    • CPN 提供更强大的计算资源和综合决策能力。


智慧城市

智慧城市的核心愿景是通过新技术使生活更加舒适和安全,涉及智能电网、智慧医疗、智慧交通等多个领域。

CPN 在智慧城市中的应用:

  • 支持计算密集型应用: 如视频流分析、配送机器人导航等,任务可动态映射到 CPN 的特定服务实例中。

  • 优势:

    • 相较边缘计算,CPN 提供了更好的网络连接性和治理平台。

    • CPN 集成了 IaaS(基础设施即服务)、PaaS(平台即服务)和 SaaS(服务即服务)的特性,可实时更新微服务,处理类似的视频分析和人脸识别任务。


AI 模型训练

AI 应用(如人脸识别和辅助医疗诊断)依赖于大规模 AI 模型的训练。传统的终端设备或单一边缘节点计算能力有限,难以满足训练需求。

CPN 在 AI 模型训练中的应用:

  • 分布式协作训练:

    • 如图17所示,大规模 AI 模型(如 VGGNet)可被拆分为多个小模型,分布式训练的中间结果可在连接的计算节点之间传递。

    • 相较边缘计算,CPN 支持更细粒度的模型分割与协作训练。

  • 优势:

    • 短延迟的协作训练,缩短训练时间。

    • 提高 AI 模型训练的效率与灵活性。


算力网络的多样化应用场景展示了其在终端计算、娱乐、智能交通、智慧城市和 AI 训练等领域的潜力。相比传统边缘计算,CPN 提供了更高效的资源调度、更强大的计算能力及更灵活的任务处理能力,为未来 6G 网络和智能化社会的实现奠定了基础。

关键支持技术

算力网络的实现依赖于多种关键支持技术,包括多接入边缘计算、软件定义网络(SDN)、网络功能虚拟化(NFV)、人工智能(AI)、感知芯片、基于IPv6数据平面的分段路由(SRv6)、微服务架构和网络切片等。这些技术为算力网络提供了智能管理、灵活性、可扩展性和安全性。


多接入边缘计算(MEC)

算力网络结合了多接入边缘计算和云计算的优势。MEC 的发展使得计算力基础设施可以无处不在地部署,提供低延迟的存储和计算资源,同时更高效地利用移动回程和核心网络。

关键挑战:

  • 高效协作多接入边缘计算与云计算。

  • 研究[90]提出了一个云-边协作特征提取框架,通过低轨卫星服务器和云服务器协作完成特征提取。


软件定义网络(SDN)

SDN 的核心思想是将控制平面和数据平面分离,使网络更加智能、可编程和开放。

应用场景:

  • SDN 控制器可感知实时的网络流量状况,从全局视角优化计算资源调度和任务卸载。

  • SDN 可构建实时的计算资源状态分布图,优化计算任务调度。

  • 在车联网场景中,SDN 辅助的 MEC 网络架构能够提升效率和灵活性,并实现协议无关的转发。


网络功能虚拟化(NFV)

NFV 的核心是将一组网络功能从专用硬件中虚拟化为通用计算平台上的软件服务。NFV 使算力网络可以按需实现灵活的计算力编排与调度。

研究方向:

  • NFV 与 MEC 的联合编排算法,可增强 NFV 管理和编排能力。

  • 基于 SDN 和 NFV 的 MEC 决策模型,用于优化计算力分配和资源使用效率。


网络切片

根据 3GPP 标准,网络切片是一组网络功能和资源(如计算、存储和网络资源)的集合,可为特定应用提供端到端的逻辑网络。

优势:

  • 动态可调的切片带宽。

  • 隔离服务,保证不同切片间的性能互不影响。

  • 在 MEC 系统中的应用能够共享基础设施上的计算-网络资源,并支持流量变化的灵活应对。


Docker 容器技术

Docker 容器技术支持算力网络服务层中的微服务架构。通过容器化技术,可高效分割计算资源并避免资源使用冲突。

应用:

  • 支持 AI 服务的微服务分解和调度。

  • 容器编排工具(如 Kubernetes)自动化容器的部署、扩展和管理。

  • 常用工具包括 Docker Swarm、Apache Mesos 和 Kubernetes。


基于IPv6数据平面的分段路由(SRv6)

SRv6 技术通过灵活的 IPv6 扩展头实现网络编程,可支持服务功能链(SFC)、流量工程(TE)和虚拟专用网络(VPN)。

特点:

  • 简化网络结构,实现灵活编程。

  • 支持按需、可靠且灵活的资源调度。

  • SRv6 与 SDN 的结合进一步提升了网络性能和调度效率。


人工智能(AI)

AI 技术正在深度融入算力网络,优化资源调度并提升智能化水平。

应用:

  • AI 服务(如人脸识别、智能监控)依赖算力网络提供灵活的计算资源。

  • AI 算法(如深度Q学习网络、深度确定性策略梯度和联邦学习)可优化计算力调度。

  • AI 的发展将使算力网络更加智能和灵活。


上述关键支持技术为算力网络提供了坚实的技术基础,使其能够应对复杂的计算资源管理和服务需求。这些技术的协同应用将推动算力网络的智能化、灵活性和高效性,为新兴应用和服务提供强大的支撑。

开放挑战与未来方向

算力网络是随着边缘计算和边缘智能发展而兴起的一场革命,尽管其发展潜力巨大,但仍面临诸多研究挑战和发展机遇。本章讨论了一些关键挑战,并提出了未来研究的潜在方向。


计算力建模

虽然已有计算力的基本测量模型,但目前尚无统一的计算力度量标准。作为资源管理和任务调度的基础,计算力建模需要解决以下问题:

  • 因素扩展: 探索更多能反映计算力特性的综合因素。

  • 准确建模: 利用机器学习拟合更精确的建模函数。


信息同步

当前,计算节点信息通过 IGP&BGP协议 发布,但分布式信息发布的规模有限。

未来方向:

  • 探索在 IP 网络层之上建立新层,以解耦信息发布和网络路由。

  • 设计更高效的协议,支持大规模算力网络中的信息发布,提升收敛速度。


移动性增强

高移动性的服务(如自动驾驶和移动云游戏)对资源分配提出了更高要求。用户的移动性会增加服务与计算资源之间的物理距离,导致计算延迟增加和资源利用率下降。

研究方向:

  • 实现水平和垂直方向的移动性增强,动态调整资源分配。

  • 提高用户体验和计算资源利用率。


通信瓶颈

算力网络需要实时感知和传输大量数据,这对通信容量提出了严峻挑战。

研究方向:

  1. 数据压缩: 基于信息论、编码理论和机器学习开发高效的数据压缩技术。

  2. 负载均衡: 设计负载均衡算法以解决链路拥塞问题。

  3. 网络内计算(In-Network Computing): 充分利用路由器和交换机等网络设备的计算资源,在通信过程中处理大量数据。


能耗优化

算力网络支持计算密集型任务,但同时带来巨大的能耗。

研究方向:

  • 开发低能耗、高性能的硬件芯片。

  • 研究任务分割与卸载算法,优化任务处理以降低能耗。

  • 文献研究表明,通过优先级函数和用户计算延迟约束的优化,可以显著降低系统能耗。


确定性超低延迟

确定性网络(DetNet)技术可提供时间敏感任务所需的超低延迟和超高可靠性服务。

研究方向:

  • 通过资源预留、周期映射、路径绑定和聚合调度等方法,实现大规模网络的确定性转发。

  • 将 DetNet 技术与算力网络相结合,以确保延迟敏感任务的快速传输和安全性。


安全性

随着用户频繁使用计算资源,如何构建可信的计算力交易成为重要课题。

研究方向:

  • 利用区块链技术将计算力交易规则和价格部署在智能合约层,确保高效和安全的交易。

  • 构建基于区块链的分布式可信管理机制,保障算力网络中计算资源的安全接入与服务。


定价策略

算力网络中的资源分配是根据用户需求动态调整的,因此定价策略对于资源的高效分配和运营收益具有重要影响。

研究方向:

  • 应用逆向归纳法进行云/边缘资源管理与定价。

  • 基于拍卖的市场模型,为云/边缘计算服务提供商和资源消费者提供高效的交易机制。

  • 研究优化定价政策,以平衡用户的成本敏感性和提供商的收益目标。


算力网络的未来发展需要解决诸多技术挑战,如计算力建模、信息同步、移动性增强、通信瓶颈、能耗优化、确定性超低延迟、安全性和定价策略。通过创新性的研究,这些问题将为算力网络的持续发展和大规模部署提供强有力的支持。

结论

本文对算力网络的研究工作进行了全面的综述与总结。算力网络是一种新型的网络范式,能够动态、按需、灵活且协同地调度计算、存储和网络资源。本文系统地介绍了算力网络的概念及其功能架构,并详细阐述了每个功能实体层的作用。

本文分别讨论了算力网络相关的关键问题:

  1. 计算力建模:全面调研了建模目标和基本方法。

  2. 信息感知与发布:对算力网络中需要感知的信息类型及其发布方式进行了详细分类和讨论。

  3. 资源分配:从资源管理、计算任务卸载和服务编排三个方面分析了资源分配的实现方式。

  4. 路由与转发:基于 SRv6 的计算力路由与转发方式进行了深入分析。

  5. 交易与编排平台:介绍了算力网络交易平台和资源编排平台的设计与功能。

  6. 测试平台:基于上述关键技术,展示了算力网络的测试平台及其实验结果。

  7. 应用场景:总结了算力网络所能支持的创新应用及其实际用例,这些新兴应用是推动算力网络发展的主要动力。

  8. 支持技术:详细阐述了算力网络实现过程中不可或缺的关键支持技术。

尽管算力网络展示了巨大的潜力,但其发展仍面临诸多挑战与机遇。本文列出了当前研究中的开放问题,并提出了未来可能的研究方向。这种新型网络范式的实现,将为动态资源调度和新兴智能应用的广泛落地奠定基础,同时为相关领域提供全新的研究契机与发展空间。

分享本文:
评论