基于 ESL 虚拟平台的 DVFS 系统功耗分析

SNUG Taiwan 2011 2011 11 页

基于 ESL 虚拟平台的 DVFS 系统功耗分析

论文信息

项目内容
作者Wen-Tsan Hsieh、Jen-Chieh Yeh(工业技术研究院 资讯与通讯研究所,台湾)
会议SNUG Taiwan 2011
页数11 页

摘要

我们提出一个电子系统级(ESL)功耗估计框架,能够支持多种低功耗方法,如动态电压频率调节(DVFS)和动态功耗管理(DPM)。基于提出的框架,设计者可以在早期设计阶段估计系统功耗并为不同应用制定适合的低功耗策略。该框架已应用于一个异构多核平台。根据实验结果,使用提出的框架可以在不同电压/频率条件下获得相当准确的功耗估计和正确的功耗趋势预测。我们还演示了低功耗方法可以通过该功耗估计框架进行分析和仿真。


1. 引言

随着便携式电子设备的出现,低功耗设计已成为近年来最热门的研究课题之一。现代设计中集成了大量 IP 并以高频率运行,消耗大量功耗。功耗不仅影响电池寿命,还会因产生的热问题而引发可靠性隐患。因此,设计者需要一个系统化的方法来在每个设计阶段执行功耗估计技术。估计值将帮助设计者了解关键的功耗问题,并在设计中制定合适的功耗管理策略以有效降低功耗。

由于高设计复杂度和上市时间压力,传统的 RTL 或门级功耗估计方法已不足以应对现代系统。设计者需要尽早考虑功耗问题以缩短设计周期。另一方面,在更高抽象层次上考虑功耗问题,由于其所具有的高灵活性,可以对系统设计产生更大的功耗改善。因此,电子系统级(ESL)功耗估计方法已成为热门研究课题。设计者可以在设计阶段初期获得功耗信息,并能够在硬件或软件层面改进设计。

此外,随着功耗成为 SoC 性能的限制因素之一,越来越多的硬件支持动态配置系统的能力,例如改变时钟频率和供电电压。为此,我们提出了一个 ESL 功耗估计框架,可以支持包括动态功耗管理(DPM)、动态频率调节(DFS)、动态电压频率调节(DVFS)时钟门控电源门控在内的低功耗技术。设计者可以基于提出的框架评估其低功耗策略(例如 DVFS 算法、DPM 策略等),在 ESL 阶段了解系统需求能否被满足。

本文的其余部分组织如下:第 2 节描述相关工作和我们的目标平台。第 3 节介绍我们的 ESL 功耗估计框架。第 4 节演示使用该框架的精度分析和低功耗分析。最后在第 5 节给出结论。


2. 预备知识

A. 相关工作

文献 [1,2] 中的作者提出了不同精度级别的功耗建模技术。使用这些方法,设计者可以在 ESL 设计流程的不同阶段,根据精度和计算成本之间的权衡选择最合适的功耗模型。这些方法提供了良好的精度和灵活性,但主要针对特定类型的 IP。

文献 [4,5] 提出了其他功耗估计加速方法,其概念是复用系统级翻转活动信息给传统功耗分析引擎,以替代耗时的 RTL 仿真。

在文献 [3] 中,作者提出了另一种实用的功耗估计方法,使用多模型引擎概念同时改善功耗仿真性能和估计精度。文献 [7] 提出了另一个使用指定功耗模型接口的 ESL 功耗估计框架。使用该接口可以在虚拟平台中轻松集成不同类型的功耗模型。设计者可以根据精度和计算成本之间的权衡选择粗粒度或细粒度功耗模型。在文献 [6] 中,作者通过使用周期精确的处理器功耗模型对整个系统进行了软件能耗分析。

虽然这些技术已经证明系统功耗可以在系统级进行估计,但它们不支持当今系统设计中广泛使用的低功耗管理技术。

B. 基本概念

我们 ESL 功耗估计框架的整体流程如图 1 所示。它由三个主要组件组成:功耗模型(Power Models)、功耗模型接口(Power Model Interface)和功耗分析器(Power Analyzer)。

功耗模型可以根据每个 IP 在运行时仿真中的状态提供可行的功耗值。功耗值可以从不同的设计抽象层次进行特征化。功耗模型接口是事务级模型(TLM)的扩展,将 IP 的详细系统仿真与功耗模型集成在一起,并向功耗分析器提供 IP 的运行时功耗信息。

在为每个 IP 扩展了功耗模型接口之后,整体 ESL 功耗估计框架如图 2 所示。功耗分析器从所有功耗模型接口收集运行时功耗信息,并生成整个系统的功耗分析报告和波形。基于此框架,设计者可以在 ESL 阶段轻松分析不同应用下的系统功耗。

在本文中,我们提升了对具有多种低功耗策略(如 DVFS 和 DPM)的设计的估计能力。使用该框架不仅可以快速估计系统级功耗,还可以帮助设计者评估其低功耗策略。详细方法将在第 3 节中描述。

C. 目标平台概述

我们的目标平台是一个异构多核架构,即 PAC Duo+ 系统。PAC Duo+ 系统已用于低功耗多媒体应用。它由一个 ARM926 和两个 PACDSP 组成。PACDSP 是 32 位定点数字信号处理器,采用 5 路 VLIW 流水线架构 [8]。系统根据不同的吞吐量需求分为三种子系统:AXI、AHB 和 APB 子系统。

目标系统的简化概览如图 3 所示。整个系统由 PAC Duo+ SoC、DDRII/SDRAM 存储器芯片组、LCD 面板和多个外设芯片组组成。该系统还支持多种功耗管理技术,如 DFS、DVFS、时钟门控和电源门控。在 PAC Duo+ 系统中采用了一个 DVFS 控制器,用于调整时钟、电压和功耗状态以考虑低功耗需求。


3. ESL 功耗估计框架

本节描述了针对各种功耗管理策略提出的 ESL 功耗估计框架。介绍了用于动态调整电压和频率的功耗接口建模方法。我们还描述了功耗模型组件的特征化方法。

A. 提出的 ESL 功耗估计框架

我们的 ESL 功耗估计框架的方法如图 4 所示。如第 2 节所述,我们的策略是将提出的功耗模型接口集成到原始 TLM 中,使得 TLM 可以在 ESL 仿真期间与功耗模型和功耗分析器通信。

在仿真期间,功耗模型接口向功耗模型提供功耗特性、电压和功耗状态信息以获取正确的功耗系数值。基于提出的机制,允许使用不同类型的功耗建模技术,例如基于表格的方法和基于公式的方法。功耗模型接口收集这些值,通过考虑当前运行频率并为功耗分析器添加每次事务的时间戳来重构功耗信息数据。功耗分析器从每个 IP 收集所有功耗信息数据,并生成详细的功耗分析报告和功耗波形。

为了帮助设计者在 ESL 阶段制定合适的低功耗策略,整个框架必须考虑动态时钟频率、电压和功耗状态切换,以实现 DVFS 或 DPM 仿真场景。使用提出的功耗模型接口可以在 ESL 仿真期间基于上述条件反映正确的功耗行为。提出的机制需要三个主要阶段,如图 5 所示。首先,提出的接口被设计为具有检测条件切换事件的能力。如果发生任何事件,接口将更新相应的参数,并调用时序模型和功耗模型重新计算正确的延迟和功耗值。

例如,一旦时钟频率改变,提出的功耗模型接口将立即接收到该事件。接口将更新频率参数,并触发时序模型重新计算相应的延迟,以确保时序行为正确。同时,更新后的频率值也将用于获得正确的动态功耗值。

在动态电压和功耗状态切换的情况下,DVFS 控制器将向目标功耗模型接口发送事件。接口将更新这些参数并与功耗模型通信以获取可行的功耗值。如有必要,接口还将调用时序模型来模拟确切的延迟。

B. 功耗模型特征化

为了证明提出的框架可用于在系统级制定低功耗策略,我们需要确保功耗趋势必须在各种电压、频率和功耗状态条件下被正确估计。使用基于仿真的功耗特征化方法过于耗时,此外我们还需要对多个外设芯片组进行建模——这些芯片组由于缺乏详细信息而无法执行门级或 RTL 功耗仿真。

在本文中,我们使用基于测量的方法来为每个组件特征化精确的功耗模型。根据图 6,我们能够通过使用 PAC Duo+ 评估板(EVB)上的电压跳线分别测量每个组件的功耗。PAC Duo+ SoC 中还有三个可测量的功耗域,分别是 PACDSP 核心、PACDSP 存储器和平台。

功耗模型特征化流程包含两个阶段——模型特征化阶段和模型验证阶段,如图 7 所示。首先,我们分析每个组件的行为以了解其运行模式。基于每种运行模式,我们将生成用于功耗测量的特征化激励,以获取每种运行模式的功耗值。在构建了事务级功耗模型之后,使用模型验证阶段来验证功耗模型的质量。如果估计误差在可接受范围内,则该功耗模型可用于我们的实验。如果估计误差不可接受,则需要细化特征化激励并重新测量以重新构建功耗模型。一旦特征化过程完成,功耗模型将被组合到 PAC Duo+ 虚拟平台(VP)中。


4. 实验结果

在使用提出的功耗估计框架来演示分析不同低功耗管理方法下的系统功耗之前,我们需要首先验证精度。

A. 精度分析

在本实验中,我们使用三种多媒体应用——JPEG 图像解码、AAC 音频解码和 H.264 视频解码——来验证功耗估计精度。本实验中的频率设置为:AXI 子系统和 ARM 为 264MHz,AHB 子系统为 88MHz,APB 子系统为 24MHz。与实际物理测量相比的误差分别为 1.63%、-0.36% 和 4.79%,如图 8 所示。

为了证明我们的方法可用于在系统级评估功耗管理技术,我们还验证了在不同运行电压和频率条件下的精度。根据图 9,PACDSP 核心的估计功耗与 EVB 测量结果在不同条件下处于正确的趋势。这意味着使用提出的框架即使在不同电压或频率调节下也能提供可靠的估计。

为了证明提出的框架在低功耗架构探索方面的有效性,我们在 PAC Duo+ 系统上应用了两种低功耗方法。在第一个实验中,比较了 H.264 解码期间使用三种不同 DVFS 算法的功耗分析。第二个实验展示了在 PAC Duo+ 系统中使用 DPM 方法的影响。

表 1 展示了我们实验中的功耗状态设置。DVFS 算法将适应三种功耗状态——即高/中/低性能状态——以动态调整来降低系统功耗。我们还有一个省电状态,以在解码完成后减少不必要的功耗浪费。

表 1:功耗管理系统的运行模式

功耗状态PACDSP Core 电压(V)PACDSP Core 频率(MHz)PACDSP Mem 电压(V)PACDSP Mem 频率(MHz)AXI 电压(V)AXI 时钟频率(MHz)
高性能0.9530013001300
中性能0.9150150200
低性能0.85120120200
省电000010

B. DVFS 算法开发

使用 DVFS 方法基于性能上的 slack 利用率来调整运行电压和频率是一种流行的低功耗技术。DVFS 算法中的 slack 表示一段空闲时间槽。当系统有可用的 slack 时,设计者可以通过降低运行频率和电压来减少能耗。

在 H.264 解码中,确定 DVFS 算法的策略是困难的。例如,如果我们在每一帧中使用所有可用的 slack,这将限制下一帧的频率调节选择。这种 DVFS 策略可能无法达到最小能耗方案。为了尽可能获得更好的 DVFS 算法,我们可以通过在 PAC Duo+ VP 中应用 DVFS 算法的不同 slack 利用策略来分析能耗。

我们实现了三种具有不同 slack 利用方法的 DVFS 算法。使用提出的框架可以在早期设计阶段探索它们对 slack 变化的影响。

图 10 展示了 DVFS 算法与不应用 DVFS 的方法相比的节能效果。这些算法逐帧执行图像解码,并分别每 10 帧或 30 帧调整一次系统的频率和电压。还考虑了来自 ARM 核心的 slack 预测的功耗。结果显示,10 帧和 30 帧情况下的能耗差异很小,并且算法实现了至少 7% 的节能。因此,使用提出的框架可以帮助设计者在 ESL 上开发和评估他们的 DVFS 算法,以实现低能耗。

C. DPM 方法在 PAC Duo+ 系统上的有效性

电源门控和时钟门控方法是降低系统能量/功耗的最流行技术。然而,它需要额外的控制电路来打开/关闭资源的电源或时钟。随着越来越多的资源被集成到一颗芯片中,这将消耗大量功耗。设计者需要有一个早期分析方法来了解 DPM 规划的有效性。

在本实验中,DPM 计划是在 H.264 解码完成后关闭 PACDSP 的电源并停止 AXI 和 DDRII 的时钟。图 11 展示了使用 DPM 方法和不使用 DPM 方法的整个系统能耗。应用 DPM 方法的设计的能耗平均比不使用 DPM 方法的设计低 14.6%。结果表明,设计者可以在提出的框架上评估 DPM 方法的有效性,并设计一个有效的 DPM 系统。


5. 结论

我们工作的目标是构建一个 ESL 功耗估计框架,能够快速估计整个系统的功耗行为,并为设计者提供一个在系统级评估其低功耗策略的环境。根据实验结果,使用提出的框架可以在不同电压/频率条件下获得相当准确的功耗估计和正确的功耗趋势预测。我们还演示了低功耗方法可以基于该框架进行分析和仿真。此外,使用提出的框架可以帮助设计者为其应用更精确地评估和设计低功耗策略。


6. 参考文献

[1] Y.-H. Park, S. Pasricha, F. J. Kurdahi, and N. Dutt, "A Multi-Granularity Power Modeling Methodology for Embedded Processors," Very Large Scale Integration Systems, IEEE Transactions on, vol. 19, pp. 668-681, 2011.

[2] Y.-H. Park, S. Pasricha, F. Kurdahi, and N. Dutt, "System Level Power Estimation Methodology with H.264 Decoder Prediction IP Case Study," 25th International Conference on Computer Design, ICCD, pp. 601-608, 2007.

[3] F. Klein, R. Leao, G. Araujo, L. Santos, and R. Azevedo, "A Multi-Model Engine for High-Level Power Estimation Accuracy Optimization," Very Large Scale Integration Systems, IEEE Transactions on, vol. 17, pp. 660-673, 2009.

[4] S. Ahuja, D. Mathaikutty, G. Singh, J. Stetzer, S. Shukla, and A. Dingankar, "Power estimation methodology for a high-level synthesis framework," Quality of Electronic Design, ISQED, pp. 541-546, 2009.

[5] H. Nan and K. Choi, "Inter-hierarchical power analysis methodology to reduce multiple orders of magnitude run-time without compromising accuracy," in SoC Design Conference (ISOCC), pp. 556-559, 2009.

[6] H. Hubert and B. Stabernack, "Energy analysis of embedded software based on a cycle-accurate processor power model," in Industrial Electronics & Applications (ISIEA), 2010 IEEE Symposium on, pp. 602-607, 2010.

[7] W.-T. Hsieh, J.-C. Yeh, and S.-Y. Huang, "PAC duo system power estimation at ESL," in Design Automation Conference (ASP-DAC), 15th Asia and South Pacific, pp. 815-820, 2010.

[8] T.-J. Lin, C.-N. Liu, S.-Y. Tseng, Y.-H. Chu and A.-Y. Wu, "Overview of ITRI PAC project-from VLIW DSP processor to multicore computing platform," Proc. IEEE Int. Symp. on VLSI Design, Automation and Test, Apr. 2008.


核心概念

概念说明
ESL 电子系统级设计高于 RTL 的设计抽象层次,用于早期系统架构探索和功耗分析
DVFS 动态电压频率调节在运行时根据工作负载动态调整电压和频率以优化功耗
动态功耗管理 DPM在空闲期间将系统组件切换到低功耗状态
功耗估计 Power Estimation在设计阶段预测芯片功耗的过程
TLM 事务级建模在事务级而非信号级对系统进行建模的方法
时钟门控 Clock Gating关断不活动模块的时钟信号以节省动态功耗
电源门控 Power Gating完全切断不活动模块的电源以消除漏电功耗

相关链接

- ESL 电子系统级设计 · DVFS 动态电压频率调节 · 动态功耗管理 DPM - 低功耗设计 Low Power Design · TLM 事务级建模 · 虚拟平台 Virtual Platform - 工业技术研究院 ITRI


图片索引

本文共 11 张图片,存放于原文 _images/ 目录。

第 4 页: - -

第 5 页: -

第 6 页: - -

第 7 页: - -

第 8 页: - -

第 9 页: -

第 10 页: -