vesperW · 9月13日

嵌入式代码常见的容错设计

如果一个大型嵌入式项目,代码没有做容错设计,你能想象后果是什么吗?

有经验的朋友肯定能想到,这样的项目会有无数bug,而且有些bug很难查找。

今天就来聊聊嵌入式代码常见的一些容错设计方法。

使用断言(Assert)

什么是Assert断言?这里举一个栗子来说明吧。

有这么一个数组和函数:

int Array[5] = {0xA1, 0xB2, 0xC3, 0xD4, 0xE5};

int Fun(char i)
{
    return Array[i];
}

假如按下下面方式调用Fun函数,你觉得会出错吗?


int a;

a = Fun(8);

有经验的朋友肯定都猜到了,在Fun函数中增加断言(Assert)机制,就可以避免出错。

断言(Assert)是代码中最常见的一种容错设计,很多源码库都能看到断言的身影,比如STM32外设库:

void GPIO_Init(GPIO_TypeDef* GPIOx, GPIO_InitTypeDef* GPIO_InitStruct)
{
  /* Check the parameters */
  assert_param(IS_GPIO_ALL_PERIPH(GPIOx));
  assert_param(IS_GPIO_MODE(GPIO_InitStruct->GPIO_Mode));
  assert_param(IS_GPIO_PIN(GPIO_InitStruct->GPIO_Pin));
  /* ... */
}

明确返回值和错误码

大家常用的协议栈、外设库、操作系统等,它们的API大多设计的很完美,为函数设计合理的返回值,用于反馈操作的成功或失败。例如,使用0表示成功,非0值表示特定的错误代码。

比如RTOS创建任务函数:


INT8U  OSTaskCreate (void   (*task)(void *p_arg),
                     void    *p_arg,
                     OS_STK  *ptos,
                     INT8U    prio)
{
    OS_STK     *psp;
    INT8U       err;
#if OS_CRITICAL_METHOD == 3u                 /* Allocate storage for CPU status register               */
    OS_CPU_SR   cpu_sr = 0u;
#endif

#ifdef OS_SAFETY_CRITICAL_IEC61508
    if (OSSafetyCriticalStartFlag == OS_TRUE) {
        OS_SAFETY_CRITICAL_EXCEPTION();
        return (OS_ERR_ILLEGAL_CREATE_RUN_TIME);
    }
#endif

#if OS_ARG_CHK_EN > 0u
    if (prio > OS_LOWEST_PRIO) {             /* Make sure priority is within allowable range           */
        return (OS_ERR_PRIO_INVALID);
    }
#endif
    OS_ENTER_CRITICAL();
    if (OSIntNesting > 0u) {                 /* Make sure we don't create the task from within an ISR  */
        OS_EXIT_CRITICAL();
        return (OS_ERR_TASK_CREATE_ISR);
    }
    /* ... */
}

为函数设计合理的返回值和错误码,也会让你的代码更健壮,特别是找bug时更容易。

日志记录

我们为什么要记录日志?记录详细的日志信息,包括错误发生的时间、位置、原因等,以便在有bug出现时进行追踪和分析。

我们学嵌入式之初,基本都会学习 printf 这种打印输出的功能,这种打印对应的另一种功能就是日志记录。

除了存储在本地的日志之外,也可以使用 printf 打印输出至另外终端(比如上位机)进行存储日志。

致命Bug重启策略

我们软件遇到一些致命的bug时,比如硬件故障(HardFault)、内存溢出(MemManage)等,这个时候可以选择重启策略。

当然,重启也要根据项目实际情况,选择什么方式重启,比如:内核复位、系统复位。

1. 内核复位

只复位Cortex-M内核,不会复位UART这些片内外设。

在Cortex-M内核文档中大概有这样的描述:通过设置 NVIC 中应用程序中断与复位控制寄存器(AIRCR)的VECTRESET 位,可只复位处理器内核而不复位其它片上设施。

内核复位函数(参考内核代码修改而来):

void NVIC_CoreReset(void)
{
  __DSB();
  SCB->AIRCR  = ((0x5FA << SCB_AIRCR_VECTKEY_Pos)      |
                 (SCB->AIRCR & SCB_AIRCR_PRIGROUP_Msk) |
                 SCB_AIRCR_VECTRESET_Msk);       //置位 VECTRESET
  __DSB();
  while(1) { __NOP(); }
}

2. 系统复位

软件复位中的系统复位操作的寄存器位(SYSRESETREQ)不同,复位的对象为整个芯片(除后备区域)。

系统复位函数:

void NVIC_SysReset(void)
{
  __DSB();
  SCB->AIRCR  = ((0x5FA << SCB_AIRCR_VECTKEY_Pos)      | 
                 (SCB->AIRCR & SCB_AIRCR_PRIGROUP_Msk) | 
                 SCB_AIRCR_SYSRESETREQ_Msk);     //置位 SYSRESETREQ
  __DSB();
  while(1) { __NOP(); }
}

静态分析工具

使用静态分析工具检查代码中的潜在问题,如未初始化的变量、内存泄漏、缓冲区溢出等。这些工具可以在编译前发现许多问题,从而提高代码质量。

虽然这算不上容错设计,但这也是开发过程中重要的一个环节,其作用在一定程度上超过常规的容错设计。

作者:strongerHuang
来源:strongerHuang

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式客栈专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
2891
内容数
284
分享一些在嵌入式应用开发方面的浅见,广交朋友
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息