导读
植物病害严重威胁全局粮食安全,通过降低 Crop 产量和破坏农业可持续性。AI 驱动的自动化分类已成为一种有希望的解决方案,深度学习模型在植物病害识别方面表现出令人印象深刻的性能。然而,由于计算需求高和资源限制,将这些模型部署在移动和边缘设备上仍然具有挑战性,这突显了需要轻量级、准确解决方案以实现可访问的智能农业系统的必要性。
为此,作者提出了 MobilePlantViT,这是一种新型的混合视觉 Transformer(ViT)架构,专为通用植物病害分类设计,在优化资源效率的同时保持高性能。在规模不同的各种植物病害数据集上进行的广泛实验表明,MobilePlantViT 具有有效性和强大的泛化能力,测试准确率从 80%到超过 99%。值得注意的是,作者的架构仅包含 0.69 百万个参数,尽管 MobileViTv1 和 MobileViTv2 的最小版本参数计数更高,但作者的架构仍然优于它们。这些结果强调了 MobilePlantViT 在现实世界中,为可持续和资源高效的智能农业系统提供 AI 驱动自动化植物病害分类的潜力。
代码:https://github.com/moshiurton...
1. 引言
粮食安全受到威胁,影响 Crop 产量,危害数百万人的生计。根据联合国粮食及农业组织(FAO)的数据,全局每年约有 40%的农 Crop 产量因病虫害而损失,造成数十亿美元的经济损失,加剧了粮食短缺问题[1]。自动且精确地识别这些病虫害对于减轻 Crop 损害和确保可持续农业生产力至关重要,而深度学习(DL)在过去十年中已经彻底改变了自动化植物病害识别领域[2],[3]。基于卷积神经网络(CNN)的模型在从复杂的叶图像中提取判别特征方面取得了显著的成功,在分类任务中实现了有竞争力的性能[4],[5]。近年来,视觉 Transformer(ViT)作为一种引人注目的 CNN 替代方案出现[6],并在包括分类在内的广泛计算机视觉任务中表现出显著的性能提升,这表明其在植物病害诊断中的潜在适用性[7]。
然而,将高性能深度学习模型部署到资源受限的设备上仍然是一个主要挑战。例如,ViTs 的高计算和内存需求在低功耗场景中可能成为障碍,尽管它们在性能上处于领先地位[8]。同样,传统的 CNN Backbone 网络也面临着模型容量和硬件限制之间的权衡,这促使研究行人转向轻量级模型。在开发紧凑型模型方面,包括 ViTs[6]在内已经取得了显著进展,Mobile ViTv1[9]和 MobileViTv2[10]是其中的主要例子。它们采用了高效的压缩特征表示机制和简化设计,以缩小标准 ViT 与 CNN 对应模型之间的性能差距[11]、[12]。尽管如此,这些方法在超低功耗设备中可能仍然计算密集,这强调了在确保全局精准农业可及性的同时,需要优化以平衡准确性和最大效率的需求。
在将基于 AI 的解决方案扩展到全局范围内促进欠发达农业社区精准农业发展的背景下,定制轻量级架构对于成本效益高的自动化农业任务变得更加关键[13]。由于高端智能农业工具和自动化系统往往对低收入地区的用户设置较高的财务门槛,引入集成定制轻量级 AI 模型且计算开销最小的设备端智能系统可能是一个可行的选择。基于这一动机,作者研究了植物病害分类领域的轻量级但通用的深度学习模型,并提出了 MobilePlantViT,这是一种针对准确植物病害图像分类的混合 ViT 架构,在性能和效率之间保持了良好的平衡。
本研究的核心贡献可以概括如下:
- 作者提出了一种通用的轻量级 ViT 模型,用于精确的植物病害图像分类,参数量仅为 0.69 百万。
- MobilePlantViT 在多个植物病害数据集上的广泛实验中实现了具有竞争力的准确率。
- 尽管参数数量较少,MobilePlantViT 在性能上超过了参数数量更多的等效轻量级 ViT。本文的其余部分组织如下:第二节总结了过往工作,第三节介绍了方法。
2. 研究方法
作者提出的架构如图 1 所示,包含多个组件。它以 DepthConv 块作为主干层开始,通过首次特征提取操作将通道维度从 3 增加到 32。DepthConv 块本质上采用深度可分离卷积[36],这是一种高效的卷积变体,分为两个步骤:
- 首先,每个输入通道独立使用单个空间滤波器进行卷积(深度卷积)。然后,应用
卷积(点卷积)来结合深度步骤的输出,并在通道间混合信息。
- 接下来,GroupConv 块包含分组卷积,可以看作是深度可分离卷积的广义形式,其中每个输入通道被划分为用户定义的组,每个组使用一组专用滤波器分别进行卷积,而深度卷积是当组数等于输入通道数时的特殊情况。在每个 GroupConv 块中,作者将一半的输入通道设置为组。
此外,作者在每个块内引入了残差连接以实现有效的信息流。这些多步骤和残差操作显著降低了标准卷积的计算负担,同时允许在深度网络中进行高效的特征提取。
其中,Z ∈ RB^x*d 表示池化特征向量,B 为批量大小。应用Dropout以防止过拟合。最后,应用线性层以获得分类的预测logits:
4. 结果与讨论
在本节中,介绍了实验设置和数据集。随后,讨论了模型性能的实验结果,并从多个方面突出了关键发现。
A. 实验数据与设置
作者使用了 4 个从大规模到小规模的数据库:PlantVillage [39]、CCMT [40]、Sugarcane [41]和 Coconut [42]。PlantVillage 数据库包含 54303 张健康和不健康的叶片图像,根据物种和疾病分为 38 个类别。CCMT 数据库包含 6549、7508、5389 和 5435 张腰果、木薯、玉米和番茄的疾病和健康原始图像。除了玉米有 7 个类别外,每个类别都有 5 个类别。Sugarcane 数据库包括 6748 张高分辨率叶片图像,分为 9 个疾病类别,Coconut 数据库包含 5 个疾病类别的 5798 张图像。数据库按照 70-15-15 的比例分为训练集、验证集和测试集。作者根据验证准确率应用了学习率降低和提前停止策略。如果连续 10 个 epoch 内准确率没有提高,则将学习率减半;如果 50 个 epoch 内没有改进的趋势,则停止训练并检索最佳权重。作者使用 PyTorch 实现了 MobilePlantViT,所有实验都在 Google Colab 的笔记本环境中使用 NVIDIA Tesla T4 GPU 进行。表 1 总结了实验设置,包括应用于训练图像的增强技术。所有数据都使用均值(0.485, 0.456, 0.406)和标准差(0.229, 0.224, 0.225)进行归一化。
B. 性能分析
表II展示了作者提出的模型的整体性能概要。该模型在不同数据集上表现出高分类准确率,特别是在 PlantVillage 和 Coconut 数据集上,分别达到了 99.57% 和 99.20% 的准确率。在 CCMT 数据集中,模型对 CCMT-Cashew(95.04%)、CCMT-Cassava(94.34%)和甘蔗的测试准确率达到 92.76%。这些结果表明,该模型对不同 Crop 类型具有良好的泛化能力,即使在处理可能包含光照、背景和病害严重程度变化的现实世界数据集时也是如此。这些数据集的 f1 分数保持一致地高,CCMT-Cashew 和 CCMT-Cassava 的宏观和加权平均值均超过 0.94,进一步证实了模型在类别上的平衡性能。在 CCMT-Maize 和 CCMT-Tomato 数据集上的性能相对较低,分别达到 81.05% 和 80.05% 的准确率。然而,这些数据集的宏观和加权精确度、召回率和 f1 分数仍然表明了合理的有效分类性能,这表明模型可以通过额外的训练数据或改进的预处理技术进一步优化。为了全面了解情况,One-vs-rest (OvR) AUC 指标为作者提供了模型判别能力的关键洞察。作者观察到,除了玉米和番茄数据集外,所有数据集的得分都超过了 0.99。总的来说,这些发现表明,所提出的 MobilePlantViT 在标准化数据集上实现了最先进的性能,同时在多样化的农业数据集上保持了强大的泛化能力。
为了评估特定领域预训练权重初始化对小型数据集的影响,作者使用在 PlantVillage 数据集上预训练的权重初始化 MobilePlantViT,并在 CCMT 数据集上重新训练。作者的发现(如表 2 所示)表明,在相关的大型数据集(在作者的案例中是 PlantVillage)上进行预训练显著提高了小型数据集的性能。CCMT-Maize 和 CCMT-Tomato 的准确率分别提高了 4.00%和 4.50%,精确度、召回率和 F1 分数也呈现出相似的趋势。这些性能分数的提高证实了特定领域预训练提供了有价值的特征表示,这些表示可以很好地推广到未见过的数据集。因此,采用这种策略可以积极影响模型性能,尤其是对于轻量级架构和训练样本有限的数据集。图 2 展示了训练和验证准确率以及损失随迭代次数的变化趋势,突出了随机初始化与预训练权重初始化的影响。使用预训练权重的模型在训练和验证准确率上都有立即的提升,与随机初始化的模型相比,导致更快收敛。然而,预训练权重有时会导致过拟合(图 2d),应采取足够的措施,如正则化、早停等。总的来说,利用相关的大型数据集的预训练权重可以增强模型性能并加速收敛,这对于表现不佳的小型数据集可能很有帮助。
C. 消融研究
作者对所提出的模型进行了消融研究,以评估其关键组件对分类性能的贡献。实验在 CCMT-Tomato 数据集上执行,因为它在作者的研究中被证明是最具挑战性的数据集。表 4 总结了消融研究的成果。研究发现,当 CBAM 被移除或 GroupConv 块形成被改变时,性能会显著下降。在案例 1 中,当 CBAM 和所提出的 1-2-4 GroupConv 配置都被排除时,模型性能下降最为显著。与所提出的模型相比,准确率下降了 9.32%,宏观精确率下降了 6.07%,加权精确率下降了 9.41%,宏观召回率下降了 15.3%,宏观 F1 分数下降了 13.47%,如表 2 所示。这表明 CBAM 和 1-2-4 GroupConv 形成对于增强特征提取和表示学习至关重要。在案例 2 中,当 CBAM 被移除但 1-2-4 GroupConv 形成被保留时,性能下降比案例 1 轻,但仍显著。准确率下降了 4.82%,宏观精确率、加权精确率、宏观召回率和宏观 F1 分数分别下降了 3.17%、4.85%、8.66%和 9.87%。这表明虽然 1-2-4 GroupConv 结构在特征提取中起着关键作用,但 CBAM 进一步细化了特征选择并提高了分类性能。最后,在案例 3 中,当 CBAM 被保留但 GroupConv 形成改为 1-1-1 时,模型性能有所下降。准确率下降了 3.04%,宏观精确率下降了 2.38%,加权精确率下降了 2.88%,宏观召回率下降了 3.71%,宏观 F1 分数下降了 3.37%。这些结果突出了 CBAM 增强了特征表示,而 1-2-4 GroupConv 形成的层次结构对鲁棒分类性能是一个重要贡献。总体而言,消融研究证实了 CBAM 注意力机制和层次 1-2-4 GroupConv 块形成协同作用于模型性能。移除任何组件都会导致性能下降,最坏的情况是当 CBAM 和 1-2-4 配置都缺失时。因此,作者的发现支持在所提出的模型中包含这两个组件,以实现植物病害分类的最佳性能。
D. 错误分析
玉米分类中最常见的错误发生在叶腐病、叶斑病和条纹病毒之间,而番茄则涉及叶斑病、萎蔫病、叶腐病和叶卷曲,如图 3a、3b 所示的混淆矩阵分析所示。如图 3c、3d 所示,这些错误分类的一个关键原因是受影响区域的视觉模式高度相似。虽然轻量级模型通常在准确性和资源效率之间存在权衡,但值得注意的是,MobilePlantViT 在 PlantVillage 数据集上实现了有竞争力的准确率(见表 1),该数据集包括番茄疾病实例的一个子集。较小的训练规模和数据质量可能在这些相对较低的性能中发挥了重要作用。为进一步改进,利用广泛的增强来引入更多样化的大规模训练数据,对难以分类的样本应用针对性增强,以及在大型数据集上进行领域特定的预训练可能有益。此外,对比学习和分层分类方法也可能在适用场景中发挥作用。
E. 与等效 ViTs 的性能比较
作者对具有等效参数约束的 MobileViT 模型的轻量级版本进行了比较性能分析。作者选择了 MobileViTv1-XXS 和 MobileViTv2-050 版本。结果如表 5 所示,提供了总结评估。作者提出的模型 MobilePlantViT 在实验数据集上始终优于 MobileViT-XXS 和 MobileViTV2-050。尽管 MobilePlantViT 的参数数量(0.69M)比 MobileViT-XXS(0.95M)和 MobileViTV2-050(1.12M)都要少,但它实现了最高的准确率、精确率、召回率和 f1 分数。值得注意的是,性能提升在 CCMT-Maize 和 CCMT-Tomato 数据集上更为明显,这些是作者实验中的挑战性数据段。MobilePlantViT 在 CCMT-Tomato 数据上达到了峰值准确率 80.05%-83.60%,超过了 MobileViTV2-050 的 73.28% 准确率和 Mobile ViT-XXS 的 69.95%。对于 CCMT-Maize,MobilePlantViT 在随机权重初始化下达到了 81.05% 的准确率,在预训练权重初始化下达到了 84.29%,显著优于 MobileViTV2-050(77.43%)和 Mobile ViTXXS(74.56%)。在 CCMT-Cashew 和 CCMT-Cassava 数据集上也遵循了产生较低性能分数的相似趋势。作者提出的模型在所有性能指标上均表现出显著的优势,包括宏观和加权精确率、召回率和 f1 分数。
5. 结论与未来方向
本研究引入了 MobilePlantViT,这是一种用于有效且通用的植物病害图像分类的新型深度学习模型。该模型计算量轻,非常适合移动设备和资源受限的边缘设备,旨在提高智能农业系统的可访问性和可扩展性。为了在不牺牲准确性的情况下实现效率,MobilePlantViT 首先通过堆叠分组卷积提取关键特征,这些卷积与卷积注意力模块融合,逐步下采样特征表示以降低计算复杂度,然后再传递给编码器。与具有二次复杂度的传统多头自注意力机制不同,作者的编码器利用具有线性复杂度的自注意力机制,显著提高了可扩展性。
在多个植物病害数据集上进行的广泛实验,以及从多个角度进行的深入性能分析表明,MobilePlantViT 不仅实现了有希望的分类性能,而且在不同植物病害实例中表现出良好的泛化能力。未来,进一步的研究可以集中在将 MobilePlantViT 应用于其他农业图像分类任务,扩大其在精准农业中的应用范围。此外,探索领域特定的预训练可能有助于提高性能和更好的泛化能力,尤其是处理罕见疾病或多样化的环境条件,最终增强模型在各个农业领域的鲁棒性。
参考
[1]. MobilePlantViT: A Mobile-friendly Hybrid ViT for Generalized Plant Disease Image Classification
END
作者:小书童
来源:集智书童
推荐阅读
- Paddle-MLIR:编译时间减少 20%!边缘智能设备 AI 加速的革命性突破
- 一起聊聊 Nvidia Hopper 新特性之计算切分
- 为二值神经网络扩展 NPU 二值 GEMM 核心功能单元和编译器
- 一起聊聊 Nvidia Hopper 新特性之 TMA
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。