bob最新域名:可靠性设计基础知识大全

  我们总是会说:某某公司的东西“好用”;某某公司的产品“质量好”;我也会经常抱怨某某系统“不稳定”;某某公司的产品“不可靠”;某产品或者部件 “容易坏” ;某某品牌的东西“保养麻烦”。这些问题用户或者管理人员一般都会把他们简单归集为“质量问题”、 “可靠性问题”或者“隐含需求”。

  但是严格追溯起来,这些问题其实往往属于好几个不同类型的问题。技术人员有必须先科学的对问题分类,才能在问题发生的阶段去专题解决问题。

  可靠性只指产品在规定条件下和规定时间区间内完成功能的能力。这是国家标准中给出的定义。标准的作用是用来衡量一个产品的好坏。那么怎么如何评价一个产品可靠性的好坏呢?这就需要对这个定义进行度量。

  首先一个产品的“功能”基本完整才可能被视为可用的产品,也不具备度量条件。因此可度量的就只剩下“时间”和“能力”。而能力是个很宽泛的概念,比较通行的度量的能力的办法就是“概率”。

  因此这个定义可以近似等效为:“在固定条件下和规定时间区间内保持功能完好的概率”或者“在固定条件下所有产品平均保持功能完好所持续的时间 (失效概率为50%)”。

  这就引出了衡量可靠性的两个参数:“失效概率”和“平均无故障时间”,且这两个参数是互为相反数。

  值得注意的是,如果“规定条件”发生变化,是允许可靠性下降的,但下降的趋势也是可靠性设计的需要关注指标。

  我们经常会听到客户抱怨你的设备不稳定、不好用、不方便等等。用户最终会抱怨是设备不可靠,不稳定。其实准确的说这些都是可用性问题。

  可用性的定义是:在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状态的能力。它是产品可靠性、维修性和维修保障性的综合反映。因此可用性是包含了可靠性的。

  可用性与可靠性的关联在于都必须考虑设备的应用环境。但是可靠性更关注的是在这个环境中能用多久(用概率表现的时间),而可用性则反应的是能不能用?能不能用好?以及能不能达到用户的期望?

  可用性需要考虑客户在合理的使用条件下能完全正常的工作。比如笔记本电脑,显然是可能被用户带出国,那么笔记本电脑在不同国家的电网的额定电压条件下能否正常工作就是一个重要的可用性指标;台式电脑基本就不需要考虑这种问题。

  埋在地下的电缆,显然有必要考虑被老鼠啃食的问题。这些都是可用性问题。而可靠性一般只用考虑额定条件下的使用时间,兼顾非正常条件下的降效指标即可。

  比如说某个设备的操作员突然由一个男士变成一个女士,设备由于没有考虑到操作员的身高和力量的差异,导致女士操作的频次比男士低很多,而引起系统的运行效率下降,我们可以据此就认为设备的可用性不好。但是由于女士操作的频次下降却很可能使设备的可靠性提高了。

  再举个例子,某个产品标称值为额定电压12,输入电压范围为10V~15V,平均无故障时间(MTBF)为3000小时。那么它隐含的意义是期望在12V条件下工作3000小时,其失效概率低于50%(估算值)。并没有保证客户在输入15V条件下也能持续工作3000小时。

  当然这个参数在实际中也不会差距太大(主要与产品寿命分布有关)。但如果产品提供者和使用者没有就这个问题沟通清楚的话,会给双方都带来很大的困扰。这就不再是可靠性问题而变成一个可用性的问题了:“用户实际需要的供电模式是什么?”

  很显然,在相同条件下更可靠的设备也更安全。但是安全性与可靠性依然是两个不同的概念,有时候甚至是矛盾的。

  举例来说:核电站的要求的失效概率达到10-8~10-9以上(SIL5级)。这样的标准要求如果换算成MTBF,没有任何一个电子设备有可能达到这样的指标。但通过多个电子设备的并联、冗余、监视、保护等措施达到这一标准却是可能的。而新增加的这些保护、冗余等设备事实上会降低整个核电站的平均无故障时间。

  为了解决安全性与可靠性的矛盾,许多应用场景会定义不同等级条件下的可靠性指标。

  比如地铁车辆的规定:发生A类故障(人身安全事故)的MTBF大于1百万小时、发生B类故障(停止运营)的MTBF大于10万小时;发生C类故障(更换维修)的MTBF大于1万小时。

  从“1.1可靠性指标的定义”节内容可以看到,通过合理设计“可维修的部件”可以有效提高系统寿命(注意与MTBF的区别)。

  但是对于用户而言任何更换维护都意味着成本,即使是免费更换也要占用用户的时间成本。维护成本是设备全生命周期成本(LCC)的重要组成部分。

  因此在设计时应尽可能少的设计“可维修的部件”,迫不得已必须设计的也要尽可能的方便维护,使维护的时间和花费降低到最小。

  在可靠性设计时经常会涉及两个关键性的概念,平均无故障时间(MTBF)和寿命。

  设备平均无故障时间(MTBF)是指“可修复产品“在相邻两次故障之间工作时间的数学期望值。对于这个定义有几点值得推敲:

  1)虽然这个指标定义是一个统计值,是衡量整个设备总体性能的,理论上说在系统设计时需要对设备的各个部分进行可靠性指标分解,即所有的单个部件的失效概率应该比整机的失效概率低很多才能保证整机的失效概率大于需求的指标。但是在实际设计中由于“短板效应”的存在,绝大多数电子设备的平均无故障时间(MTBF)都是由于设备中寿命最短的那几个部件所决定的。

  3)对于“可修复产品”,其产品寿命由其不可修复的部件的最短寿命决定其设备寿命。

  再进一步引申:改善一个产品MTBF指标的关键点就在于提高设备部件寿命的瓶颈。而改善一个产品寿命指标的关键是将某些寿命瓶颈部件变成“可维修的部件”。

  举例来说:对于一辆汽车而言,如果以整车来看其平均无故障时间(无故障里程)是超过15000公里或者12个月,这显然是由机油这个部件的寿命来决定的。但是因为运行更换机油、更换刹车、皮带等保养措施的存在,一辆车的设计寿命可以达到20年;电脑的显示屏和硬盘的MTBF显然是低于其他部件的,因此电脑销售时这两个部件的质保期也经常会单列。

  比如在激光加工设备中,光源显然是属于整机的寿命瓶颈,设计时就需要将其设计为“可修复单元”。因此需要为其设计为方便的维修方式,如果更换一个光源需要把整个激光加工生产线都拆了,这样造成的长时间停工是很难让用户接受的。对于公司售后维护来说也将是沉重的负担和风险。

  当然也有反向的例子,手机电池是手机的寿命瓶颈,因此手机发明之初都是将其设计为“可修复单元”。但是随着电池寿命的提高,同时很多厂家为了提高手机更换频次的商业目的,现在更换手机电池已经非专业人士不可了,基本可以被认定为“不可修复单元”了。这其实是降低了手机的整机寿命。

  本文以电子设计为主要对象,而电子器件很多都是焊接在板卡上,一般很难更换,这里就不再考虑更换和维修这一条件,因此本文后续的寿命就等同于平均故障时间,不再仔细区分这两个概念了。

  绝大多数设备销售都有质保期的规定的,质保期怎么定往往由行业标准、市场策略、销售模式、销售价格、成本利润控制等多方面因素共同决定的。

  但是不管怎么定质保期是绝对不能超过设备平均无故障时间的。超过这个时间就意味着很多设备没有过质保期就已经不能正常工作了,这时用户如果要求退换、维修、甚至赔偿的话设备供应商就不可能盈利。

  标称MTBF时间一般以小时计算。而质保期一般按年计算。这就存在一个对应关系。

  这个关系不是简单的365*24的关系。因为只有很极端的设备才会完全工作在这种全年无休的情况。而且即使是这样的设备,也不会处在满功率、满负荷并且极恶劣的工况下工作。因此其计算也不必如此保守。一般而言可以分为以下几个种类:

  军品一般来说没有明确的使用时间要求。但是要求在标称的使用时间内超低故障率。因此一般而言军品会提高一个标准设计。比如说需求为3000小时的,一般会非硬约束(比如材料特性约束)部分的设计标准至少都要达到5000小时以上。因此我们一般会感觉军品的质量更高。

  但是我确实曾经见到过销售的设备标称MTBF是3000小时,但是销售商承诺的免费质保期确是三年的情况。这种情况很多时候是销售人员基于市场压力做出来了一种商业策略。这是一种很不严谨的态度,是很难人信服的。

  你可能会有疑问,家里的电器标准只有1年,但是我家里却用了很多年了也没有坏啊?怎么感觉这个值和理论值差异这么大呢?这有以下几个原因:

  1)绝大多数人的使用频次其实没有理论那么高。以电视为例,计算时是以3000小时为1年计算的,但实际上你需要每天看8个小时以上的电视才能达到一年3000小时,很多人连一半的时间都达不到。

  2)即使是让电器设备运行着,很多时候电器也并没有全功率运行。例如很多人的手机会24小时开机,但是绝对不会有人24小时都在连续打电线)设备运行环境更优。

  5)多数的家用电器设计使用在广大的范围内销售的,因此设计人员会按最为恶劣的方式进行计算(也有可能是多年教训的积累)。

  一个新设计的电子设备的推出后不久往往很快就会在用户反映出很多设计不足的问题。由于“二八效应”和“短板效应”的存在,设备的问题经常会集中在两三个点上,因此厂家往往会针对性的对其做出改进并应用于后续机型上。同时由于技术的进步很多部件的质量也是再缓慢提高的,因此后续机型的质量往往会优于前面的机型。但是再没有国家标准或者市场因素推动时,厂家一般也不会再重新投入成本做可靠性检测和认证,所以指标还是沿用以前的。

  当然设备寿命也不是越长越好,除了更高的设计指标意味着更高的成本外,更高的寿命会降低用户更新换代的频次,甚至会降低用户的使用体验。

  电子器件的失效本质上是器件内外部的电子运动、化学、机械等作用破坏了器件内部的结构。

  早期失效的原因主要是生产过程中引起的器件结构差异,可以通过一定的应力筛选办法可以将这部分器件筛选出来。

  如果不考虑外部的机械、化学损坏的话,所有提高可靠性设计的手段总计起来就一句话:“降低系统的相对电应力”。

  如前面所说,虽然理论上说做可靠性设计需要做可靠性指标的分解与计算。但是由于短板效应的存在,少数几个寿命短板往往就直接决定了系统的最终寿命,只需要能识别出一些可靠性上面的短板并针对性的做出改进,系统寿命就能得到质的改善。

  绝大多数器件厂家都会给出一个标称值或者额定值。这个标称值和额定值背后其实隐藏着一个关键信息,即在这个额定值条件下能连续工作多长时间。

  考虑到通常来说系统额定电源每下降10%寿命会延长约一个数量级;工作温度每下降10℃寿命也会延长约一个数量级(不同类型、不同结构器件的寿命曲线参数有所不同)。那么以电容为例对于一个期望在40℃环境下能连续工作10000小时以上的设备而言,考虑上系统自身发热,电源纹波、开关过充等影响。额定电压至少应降额30%以上,额定工作温度最好选择105℃以上的。

  “3.1 识别并改善寿命瓶颈”提到使用风扇会大大降低系统整体的寿命。但因为风扇的使用会改善发热部件的局部温升,从而大大提高发热部件的寿命。

  隔离的目的就是让系统尽可能的脱离外部复杂的运行环境,让设备尽可能的在更加安全、稳定中的环境中运行。

  从改善可靠性的效果看,电气隔离功能隔离间距隔离或屏蔽。但不管采用那种方式的隔离,总的来说隔离都有利于降低因为外部原因引起的电应力,从而提高系统可靠性。隔离还能同时提升系统EMC性能,安全性等性能。但隔离往往也意味着系统复杂性和成本的增加。

  纹波对电路寿命的影响是非常巨大的。这是因为电子元件的寿命根据其所有应力的增大呈指数被的减小。包括电容、电感、电阻等在内的滤波器件能显著改善系统的纹波,这对提高其附近电路的寿命作用很大。

  对于一些发生原因来自外部,发生概率随机的问题,在原理设计层面直接解决这些问题往往非常困难。理论上说我们可以把锅甩给客户,指责是用户使用不当导致的问题。但这样对用户体验也不好。

  下面介绍一些简便且常用的可靠性估计方法,虽然运用这些方法做出的计算并不精确,但一般来说估算结果不会存在数量级的差异。用来指导系统级的设计时由于其操作简单,还是很有实用价值的。若要进行精确的可靠性估计计算,建议按照《GJB Z 299B 电子设备可靠性预计手册》进行。

  可靠性设计仅技术层面就要包括:可靠性分解、可靠性计算、电子材料特性、电子电路知识、EMC、失效分析等环节。

  前面说了,要建立一套完整的可靠性计算标准,必须严格依照《GJB Z 299B 电子设备可靠性预计手册》进行分解、计算。但这样的过程实在费效比很低,同时要让每一个设计人员都掌握这个计算方法也是很难的。而不同的工程师对标准的理解和应用不同带来的设计差异反到会对公司产品的一致性产生不利影响。一个比较好的做法是由公司一两个工程师将标准消化,形成一个基于excel表格可靠性寿命计算标准。这个标准把公司内部常用器件按大类和小类进行分类总结。根据我们的经验看,对一个产品种类比较多的中小公司而言,有计算价值的元件不超过10来个大类50个小类。以下是表格的局部范例(以下数据仅供参考):

  由于经过消化后的大量的计算规则都是忽略或者成为一个保守值,计算工作量将大大减少。将上述器件排除掉后,剩余的影响设备寿命瓶颈的元件就非常少了。剩余的可以参照“一些可供参考的可靠性估计方法”。如果还不能完成估计,则再去查找GJB Z 299B进行计算难道将大大降低。将可靠性设计的问题聚焦到几个关键部件上。

  很多公司的产品面向消费应用,其工作环境非常良好,比如设计工作温度为0~40℃.这样的设计标准其实是很低的。达到这样的设计标准的产品显然是合格的产品。因此很多公司就很少在进一步向上做测试了。但这样的测试其实是很有必要的。

  在第二章中展示的浴盆曲线中的第一阶段早期失效的失效概率是很高的,且存在随工作时间增加而快速下降的趋势。

  前面已经提到一些关键性的设计瓶颈经常就会制约产品可靠性指标。如果公司制定相关的设计标准或者以不成文的规定限制设计人员采用一些低寿命模块。短期看这样会束缚设计人员的手脚,影响开发进度,甚至增加产品成本。这些限制经常不得不进行系统方案级别的修改。但从长期看收益颇多。很多时候设计人员为了规避性的设计约束,不得不的深扣技术细节,从原理上进行创新,进而能形成许多具有高度独创性的和针对性的专利技术。长期坚持好的技术习惯、好的设计标准的最终形成的就是这个公司独特的行业标签,是公司商业品牌的重要组成部分。

  在这方面最优秀的案例是苹果公司。从苹果诞生那天起,乔布斯非常就痛恨风扇和线缆,他近乎偏执的要求所有产品中坚持无风扇、少线缆、少接口的设计。当然其初衷可能仅仅只是噪声影响用户体验或者线缆太多影响美观而已。但是正是这份坚持,让苹果的产品的用户体验长期领先于对手,同时这份坚持为苹果带来了历史上第一款开关电源设计,为苹果缔造了世界上最优异的散热设计团队,并让这个团队成为苹果的核心竞争力之一。

  没有哪个公司的产品设计出来就没有任何问题,怎么应对问题每个公司的做法天差地别。特别当客户使用发现重大问题,给公司高层施加压力时,公司从上倒下还能不能保持冷静本着实事求是的态度来解决问题而不是掩盖问题就反映的是一个公司司品的时候了。

  1个多小时过去了,张一山的“严正声明”还在网上挂着,这让网友们大松了一口气

  香港每日新增确诊患者仍有7000多人,为何会突然宣布大幅放宽入境检疫措施呢?特首李家超:平衡多方面因素

  六大片区,1.8万人,征地6776亩,成本近400亿!海口旧改潮来了?

  RTX 4090显卡上架:两倍RTX 3090 Ti性能 国内12999元起

上一篇:
下一篇: