测试覆盖率 Test Coverage

概念解析

定义与起源

术语定义:测试覆盖率(Test Coverage)是衡量芯片制造测试质量的指标——在ATPG可检测的故障中,有多少比例能被生成的测试向量检测到。它是芯片发货前的最后一道质量关:覆盖率不够→可能把坏芯片当好的发货→field return和客户投诉。

覆盖率有三个层次:故障覆盖率(fault coverage)=检测到的故障/总可检测故障;缺陷覆盖率(defect coverage)=被检测到的真实缺陷/总真实缺陷——这是终极目标但无法直接测量;测试覆盖率(test coverage)=广义的"测了多少",包括功能覆盖、结构覆盖、参数覆盖。

核心要义

第一,99%和99.9%的差距=10倍的测试向量和100倍的测试时间。 覆盖率从90%→99%相对容易(增加一些向量)。从99%→99.9%——每多一个9需要翻倍的向量数和测试时间。从99.9%→99.99%——需要更先进的故障模型(cell-aware)和更长的测试时间。这是经济决策:多高的覆盖率值得多高的测试成本?

第二,覆盖率≠质量。 99.5%的stuck-at覆盖率不能告诉你:transition故障覆盖了多少、path delay覆盖了多少、bridge故障覆盖了多少。如果stuck-at覆盖99.5%但transition只覆盖82%——你的芯片可能在一半的transition故障前"裸奔"。

第三,不同类型的芯片需要不同的覆盖率目标。 手机AP:99% stuck-at + 95% transition,可接受ppm级field return。汽车ASIL-D:99.9% stuck-at + 99% transition + cell-aware + IDDQ + LBIST——追求0 ppm。覆盖率目标不是技术决策——是商业决策。

实践应用

* ATPG覆盖率报告是起点不是终点:TetraMAX跑完生成覆盖率报告——检查哪些故障没覆盖→分析原因(untestable? redundant? ATPG abort? )→分类处理。 * 测试点插入补短板:如果某个模块覆盖率低→插入测试点(额外观察FF或控制点)→重跑ATPG。 * 覆盖率审计是tape-out checklist:stuck-at≥99%、transition≥95%、path delay≥85%→达标。任一项不满足→review waiver。

实战案例

- 某GPU的覆盖率陷阱:stuck-at 99.8%看起来完美。但transition覆盖率只有82%。根因是设计中大量门控时钟——ATPG无法通过门控时钟传播transition故障。插入测试控制点后transition提到95%。 - 汽车MCU的覆盖率高墙:ASIL-D要求stuck-at 99.9%。团队用cell-aware ATPG+测试点插入+LBIST三重覆盖才达标——增加测试向量3倍、测试时间2.5倍、芯片面积+3%。 - WiFi芯片的ppm危机:field return率突然从200ppm跳到2000ppm。根因:新工艺引入了以前未见的bridge故障——stuck-at覆盖率检测不到bridge。增加bridge fault ATPG后ppm回到150。

原话引用

> "Coverage is a number. Quality is what happens when the number meets reality."—— SNUG San Jose 2018 > "99.9% stuck-at coverage doesn't mean 99.9% of defects are caught. It means 99.9% of the faults you modeled are caught."—— DFT总监, 内部评审 > "测试覆盖率是经济决策——每个百分点的覆盖率都有对应的测试成本。你的工作是找到那个盈亏平衡点。"—— TSMC测试策略白皮书, 2021

常见误区

误区一:覆盖率越高越好。 从99.9%到99.99%的代价可能超过field return的损失。最优覆盖率是测试成本和退货成本的盈亏平衡点。

误区二:stuck-at覆盖率=测试质量。 stuck-at是最简单的故障模型。真实缺陷(桥接、开路、延迟)需要transition/path delay/cell-aware模型覆盖。只看stuck-at覆盖率=只看冰山一角。

误区三:ATPG跑完就能tape-out。 ATPG覆盖率是"可以检测"——不是"会被检测到"。需要考虑ATE的精度限制、测试向量在ATE上的应用条件、测试时的电压和温度差异。

思想演变

- 1990s:覆盖率=stuck-at:只需要stuck-at覆盖率。95%就算好。transition不被考虑。 - 2000s:transition加入:180nm以下transition故障增多。transition覆盖率要求≥90%。 - 2010s:cell-aware ATPG:28nm以下单元内部缺陷不可忽略。cell-aware覆盖率成为先进工艺的必须。 - 2020s:AI驱动覆盖率优化:ML预测哪些未覆盖故障最可能成为真实缺陷——优先覆盖高风险故障。

相关论文

- 使用片上PLL优化跳变故障测试向量生成及其对压缩技术的影响 - DFTCMax模块化实现:确保低面积开销与高测试质量 - 实现SOC高测试覆盖率的策略 - 实现 SoC 高测试覆盖率的策略 - 混合信号设计中分散数字模块的DFT方案 - 混合信号设计中碎片化数字模块的DFT方案 - 在RTL签核中改善SoC可测试性和ATPG效率 - 将SoC可测试性改进作为RTL签核的一部分 - 使用SpyGlass DFT ADV进行测试点插入与覆盖率的调查研究 - 使用SpyGlass DFT ADV在RTL签核阶段改善DFT实现 - 测试点决胜局——覆盖率、成本与QoR的DFT帽子戏法 - SpyGlass DFT ADV早期可测试性分析与物理感知测试点插入——优化ATPG结果 - SpyGlass DFT ADV概述——RTL测试Signoff - SpyGlass DFT ADV早期可测试性分析:满足汽车电子严苛的可测试性要求 - 使用DFTMAX LogicBIST和SpyGlass的内建自测经验分享 - 早期验证——TestMAX DFT左移加速结果达成时间 - DFTMAX-Ultra在超低引脚数设计中实现高测试覆盖率——嵌入测试模式控制器 - DFTMAX Ultra为嵌入测试模式控制器的超低引脚数设计实现高测试覆盖率 - 面向小型数字混合信号器件的DFTMAX Ultra方案 - 提高SpyGlass DFT测试点精度的技巧