原创:功能安全 26262 中的电子元器件失效率怎么理解?如何计算?3000 字教你搞定!
电子元器件失效率数据是功能安全开发的不可或缺的重要依据,功能安全 26262 中的电子元器件失效率怎么理解?如何计算呢?
在功能安全标准 ISO26262 中,关于器件失效率的定义主要与汽车电子系统的安全完整性等级,也就是 ASI(Automotive Safety Integrity Level)相关。在功能安全开发中,ASIL 是目标,而评估并控制器件失效率是评估硬件是否实现目标 ASIL 等级的重要度量指标。
在详细讲解器件失效率之前,我们有必要先对 ASIL 的概念有一个清晰的了解。
1.什么是 ASIL?
ASIL 汽车安全完整性等级是 ISO26262 标准中用来衡量汽车电气和电子系统功能安全需求的一个核心概念。ASIL 反映了系统或组件在发生故障时可能导致的风险程度,以及为降低这种风险所需的安全措施的严格性。
在 ISO 26262 中,ASIL 的范围从最低的 QM(Quality Management,质量管理)到最高的 ASILD,其中 QM 表示无需特殊功能安全要求,而 ASILA 到 D 表示逐渐递增的安全完整性需求。
理解 ASIL 需要重点三个方面,也就是ASIL 的分类方法,应用场景以及ASIL 的实际意义。
1.1 ASIL 的分类方法
ASIL 的确定是通过危害分析与风险评估 HARA 来完成的,评估基于三个关键因素:
严重性(Severity):故障可能导致的伤害程度。
S0:无伤害
S1:轻微伤害
S2:严重但可恢复的伤害
S3:致命或不可恢复的伤害
暴露概率(Exposure):故障发生的可能性或暴露于危险场景的频率。
E0:极低概率
E1:低概率
E2:中等概率
E3:高概率
E4:非常高概率
可控性(Controllability):驾驶员或其他人员避免危害的能力。
C0:完全可控
C1:通常可控
C2:难以控制
C3:不可控或几乎不可控
通过这三个因素的组合,ISO26262 提供了一个矩阵来确定 ASIL 等级。例如:
S3(致命伤害)+E4(非常高概率)+C3(不可控)=ASILD(最高等级)
S1(轻微伤害)+E4(非常高概率)+C2(难以控制)=ASILA(较低等级)
如果风险极低,则归为 QM。
1.2 ASIL 的实际应用
1.ASIL 等级决定了开发过程中所需的安全活动
例如,ASILD 需要更全面的故障分析,比如 FMEA、FTA、更高的诊断覆盖率和更严格的验证。
2.基于 ASIL 等级得出对相关系统的硬件的要求
ASIL 等级与随机硬件故障的概率指标 PMHF 直接相关。例如,ASILD 要求 PMHF 小于 10⁻⁸/小时。
1.3 如何理解 ASIL 的意义
1.以风险为导向
ASIL 不是直接衡量系统性能,而是衡量故障风险及其对安全的潜在影响,它存在的意义不是为了消除风险,它的核心是降低不可接受的风险。
2.做好权衡
ASIL 反映了安全性和成本,以及系统复杂度之间的权衡。高 ASIL 等级意味着更可靠的设计。
3.要具备系统性思维
ASIL 适用于整个系统,包括硬件、软件,需要从全局视角理解,而不能仅仅盯着硬件或者软件。
理解了 ASIL,我们就明白了在硬件设计中,元器件失效率是和我们要实现的 ASIL 等级是直接挂钩的,那么电子元器件失效率到底该怎么理解呢?
2.如何理解失效率这个概念?
FIT 表示单位时间内,通常是 10 亿个小时,也就是 10^9 小时内发生故障的次数。它是器件故障率的度量,它的单位是:故障次数/10⁹ 小时。说到 FIT,我们经常会看到一个转换公式就是:
FIT=1/MTBF
所以要想理解失效率,就需要先理解 MTBF。
2.1 什么是 MTBF?
MTBF 源于可靠性工程中的故障率的概念,假设一个组件的故障率 λ 遵循指数分布,那么可以得到:
N: 样本总数,也就是初始的器件数量。
λ: 故障率(单位:1/小时)。
t: 运行时间(单位:小时)。
MTBF: 平均故障间隔时间(单位:小时),MTBF 与故障率的关系是 MTBF=1/λ。
e^-λt: 在时间 t 内未发生故障的概率。
怎么去理解这个公式呢?这个公式的核心就是基于指数分布的可靠性模型,描述了在时间 t 后,N 个部件中仍未发生故障,通俗点来说就是经过了时间 t 小时后,还有多少个器件能正常工作。
所以 e^-λt 表示的是在时间 t 内未发生故障的概率。N(t)=N×e^-λt 表示在时间 t 后,预计还有 N×e^-λt 个部件未发生故障。
当 t=MTBF 时:
MTBF=1/λ,所以 λ×t=λ×MTBF = 1。
代入公式: N(t) = N×e^-λt = N×e^-1。
e^-1≈0.368,
可以得到:N(t)=0.368×N。
所以可以得到一个重要的结论,在运行时间 t 等于 MTBF 时,大约有 36.8%的部件未发生单点失效,还能正常工作,而 63.2%(1-e^-1≈0.632)的部件已经发生故障。
我们一定要注意的的是,上面的公式是指数函数,指数函数对应的分布特性就是:MTBF 是平均值,这意味着并非所有部件都在 MTBF 时间点失效,而是逐步失效的。
2.2 故障率 λ 和失效率 Fit 的靠谱表达式是什么?
上面的公式中只出现了故障率 λ,那么故障率 λ 和失效率 Fit 的关系是什么样呢?二者能直接划等号吗?
故障率 λ 是单位时间内发生故障的概率:
λ=1/MTBF(单位:故障次数/小时)。
FIT 是每 10^9 小时的故障次数,因此:
FIT=λ×10^9=(1/ MTBF)×10^9
如果你还不明白,那咱们就举个例子:
如果 MTBF=1000000 小时,也就是 100 万小时,
则 λ=1/1000000=10-6 故障/小时,
FIT=10-6×10^9=1000 FIT,也就是说每 10^9 小时发生 1000 次故障。
所以,正确的公式应为:
FIT=(1/MTBF)×10^9(这里的 MTBF 是以小时为单位)。
如果你直接看到 FIT=1/MTBF,你可千万要注意,这里是有时间转换关系的,千万别把 10^9 给忘了,算出来的结果可是差之万里啊。
3.如何得到器件失效率?
3.1 实验数据统计
对一组相同元器件进行长时间运行测试,记录故障发生情况。
1.测量所有样本的总运行时间。
2.统计测试期间的故障次数。
3.计算故障率 λ=故障次数/总运行时间。
4.转换为 FIT=λ×10^9。
这种方法十分依赖实际测试数据,适用于有足够样本和时间的场景,所以一般不建议采用这种方式,因为样本数量小了,没啥说服力,样本数量大了,又太烧钱,自己测吧,也没啥权威。
3.2 厂家提供的数据
元器件供应商通过内部测试或历史数据,提供其产品的 FIT 值。供应商一般会单独给一个元器件的 FIT 值报告,列明 FIT 值的的来源,基于哪个标准。目前来说国内的厂家一般是基于加速寿命测试,比如高温、高压条件下的老化测试,结合统计模型,如
Arrhenius 模型推算来推算出器件的 FIT 值。下面这个公式是器件制造商通过实验数据估算 FIT 的常用方法。
FIT Rate:表示每 10^9 小时的故障次数。
X^2:卡方分布值,取决于置信度,需要查卡方分布表,例如( MIL-HDBK-338B 统计表)
EDH:Equivalent Device Hours,等效器件小时数,表示所有测试样本的累计运行时间。EDH=样本数量 × 每个样本的测试时间。如果测试条件不同,例如加速测试,需要通过加速因子调整:EDH=实际测试小时数 × 加速因子。
所以这个公式一方面要通过实验数据 EDH,另外一方面还结合统计方法卡方分布估算器件的失效率(FIT)。卡方分布的意义在于其提供了统计置信区间,确保 FIT 值的可靠性。
3.3 行业标准
1. IEC 62380
说起 IEC 62380,那可真是大名鼎鼎,它是由法国工业界开发的一个可靠性预测标准,专门用于计算电子系统的 FIT 失效率,现在也在很多公司使用,但是很多人没注意的是这个标准它在 2017 年被 IEC 61709:2017 取代了,但由于其在半导体行业中的广泛应用,其实很多公司还是在用着。
IEC 62380 考虑了静态温度和温度变化对失效率的影响,适用于复杂的 Mission Profile。提供了电子元件的可靠性预测模型,特别适合半导体器件。在 2018 版 ISO 26262 Part 11 半导体章节中中明确引用了 IEC 62380 的计算模型,用于电子元件的可靠性预测。
当然 IEC 62380 的缺点就是它的公式较为复杂,算起来是真麻烦呀。无论是 IEC 62380,或者它的替代者 IEC 61709 都只是提供了一个通用的框架,用于从参考条件下的失效率转换到其他工作条件下的失效率。它们并不直接提供基础失效率数据,而是指导如何构建失效率数据库和应力模型。更像是一个指导性标准,实际应用中需要结合其他数据源,比如 SN 29500。
2. SN 29500
SN 29500 是由德国开发的一个可靠性预测标准,基于 IEC 61709,但是这个标准好用就好用在它提供了具体的失效率数据,所以实际应用的比较多。
提供了被动器件,分立器件等很多元器件的基础失效率数据,简化了输入参数,可以通过表格数据直接选择失效率,适合快速计算。但对环境因素,如温度、湿度的考虑较弱。环境影响的建模不如 IEC 62380 详细。并且由于其版本跨度较大,其标准是在 2004-2016 之间陆续出的,部分数据可能不够新。
3.MIL-HDBK-217F
MIL-HDBK-217F 是美国国防部开发的可靠性预测标准,它提供两种预测方法:
Parts Count Method:适用于早期设计阶段,基于元件数量、质量和环境条件。
Parts Stress Method:更复杂,考虑温度和电气应力,适用于详细设计阶段。
它的数据是较为保守,IEC 62380 和 SN 29500,你用 MIL-HDBK-217F 预测的失效率偏高。并且它的数据基于较老的技术,年代比较久远,可能不适用于现代半导体技术。
4.基于 SN29500 元器件失效率计算实例
接下来,我们以贴片电阻为例,基于 SN29500 标准来详细说明一下如何计算贴片电阻的失效率。
4.1 参考 SN 29500 标准失效率计算方法
首先打开 SN 29500-4 标准:
标准会给出电阻失效率计算的公式,也就是下图红框中的公式,所以我们需要找到两个参数就能得到电阻的失效率,一个 λref 是基础失效率,可以查表得到,
ΠT 是温度影响因子,也可以查表得到。
4.2 确定电阻的基础失效率 λref
我们可以找到标准中的表格 2,根据我们选用贴片电阻的材质来确定对应的基础失效率 λref,比如如果我们用的是金属膜电阻,那么 λref 就是 0.2。
4.3 确定温度影响因子 ΠT
ΠT 有两种获取方法,一种是查表法,一种是公式计算法。
1.查表法
Θ1:电阻参考温度
Θ2:电阻实际温度
下面表格中 Θ1 有 55 和 85 两种,常规选 55 即可,如果是发动机舱这种环境温度一直比较高的可以考虑选 85,Θ2 是电阻实际温度,可以通过温升实验或者理论计算评估得到,那么如果 Θ1 是 55,Θ2 是 100,这样就能得到 ΠT 是 2.8。
2.公式计算法
标准 4.2 章节提供了 ΠT 的计算公式,相应的参数都可以通过查表获得,最终计算出 ΠT。
4.4 计算失效率
那么失效率=λrefΠT=0.22.8=0.56
5.总结
器件失效率的定义主要与汽车电子系统的安全完整性 ASIL 等级相关。评估并控制器件失效率是评估硬件是否能实现目标 ASIL 等级的重要度量指标。
目前获取器件失效率的方法有实验数据统计,厂家提供的数据,以及参考 IEC 62380,SN 29500,MIL-HDBK-217F 等行业标准,SN 29500 这个标准提供了具体的失效率数据,使用方便,所以实际应用的比较多,本文也提供了一个具体的参考 SN 29500 标准计算器件失效率的方法,方便大家学习掌握。
END
作者:硬件那点事儿
文章来源:sasetech
推荐阅读
更多物联网安全,PSA 等技术干货请关注平台安全架构(PSA)专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入PSA 技术交流群,请备注研究方向。