【20210122期AI简报】保姆级深度学习环境配置指南、寒武纪首颗AI训练芯片亮相

文章转载于微信公众号:RTThread物联网操作系统
作者:lebhoryi
导读：本期为 AI 简报 20210122 期，将为您带来 9 条相关新闻，新增论文推送，在文章底部，祝各位牛年大吉~
本文一共 3700 字，通篇阅读结束需要 7~10 分钟

1. 保姆级教程：深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解)

该文章是市面上比较详细的一篇环境配置文章了
文章来源于Datawhale ，作者Datawhale

俗话说，环境配不对，学习两行泪。本文为保姆级别的教程，详细介绍了Windows、Mac和Ubuntu的深度学习环境配置方法及问题，帮助卡在环境配置的小伙伴们，解决入门难关。

入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。

如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。

Windows
Mac
Ubuntu

2. 「分布式」艺术创作：20分钟+1080显卡，这个AI就能创造复杂作品 | 开源

Github:
https://github.com/ProGamerGo...

20分钟生成复杂的艺术作品，而且还是用英伟达上上代的1080显卡？

现在神经网络上手门槛这么亲民了吗？

没错，这是一个叫做neural-style-pt的风格迁移模型，基于Pytorch实现，而且刚刚开源！

有关这个算法模型的话题在Reddit上才发布一天，热度接近2000。

neural-style-pt是论文A Neural Algorithm of Artistic Style的Pytorch实现，该论文走的是“风格迁移”路线。

安装neural-style-pt，首先要准备好Pytorch。

然后，使用下方一句话指令就能安装已经训练好的模型：

1python models/download_models.py

安装完以后，上手试玩也很简单，一行代码就能实现：

1python neural_style.py -style_image-content_image

如果要载入多种风格，需要分隔不同的图片文件名：

1-style_image starry_night.jpg,the_scream.jpg

注意，图片名称要包含完整的地址路径。

基本操作就是这些。

3. 实用教程详解：用OpenCV的DNN模块部署YOLOv5目标检测

Github:
https://github.com/hpc203/yol...

最近看到多篇讲解YOLOv5在OpenVINO部署做目标检测文章，但是没看到过用OpenCV的DNN模块做YOLOv5目标检测的。于是，我就想编写一套用OpenCV的DNN模块做YOLOv5目标检测的程序。

在编写这套程序时，遇到的bug和解决办法，在这篇文章里讲述一下。

在YOLOv5之前的YOLOv3和YOLOv4的官方代码都是基于darknet框架的实现的，因此OpenCV的DNN模块做目标检测时，读取的是.cfg和.weight文件，那时候编写程序很顺畅，没有遇到bug。

但是YOLOv5的官方代码(https://github.com/ultralytic...，而OpenCV的DNN模块不支持读取Pytorch的训练模型文件。如果想要把Pytorch的训练模型.pth文件加载到OpenCV的DNN模块里，需要先把Pytorch的训练模型.pth文件转换到.onnx文件，然后才能载入到Opencv的DNN模块里。

因此，用OpenCV的DNN模块做YOLOv5目标检测的程序，包含两个步骤：

把Pytorch的训练模型.pth文件转换到.onnx文件。
OpenCV的DNN模块读取.onnx文件做前向计算。

4. 缺陷检测比赛Top3方案分享

工业缺陷检测是当前深度学习落地的热门项目，近年来许多的比赛平台都举办了关于缺陷检测的比赛，如kaggle前不久举办的钢铁缺陷检测，以及天池刚刚开始的智能算法赛：瓷砖表面瑕疵质检。

瓷砖表面瑕疵质检比赛链接：

https://tianchi.aliyun.com/co...

比赛刚刚开始有兴趣的小伙伴可以报名参加。

我调研了2018年天池的铝型材表面瑕疵识别比赛的获奖方案。从别的人方案学习到该领域相关的知识和有效的技巧。

这里分享一下一般参加比赛的思路：

找开源检测框架→数据增强→调参→小改网络→调参→小改网络→调参->测试增强

5. 通过编写一个简单的游戏学习 C 语言 | Linux 中国

当你学习一门新的编程语言时，这个“猜数字”游戏是一个很好的入门程序。下面是如何用 C 语言来编写它。

我在小学时就开始自学编程。我的第一个程序是在 Apple II 上编写的，但最终，我还是通过看书和编程练习学会了 C 语言。练习编程的最佳方法是编写示例程序，它能帮助你练习新知识。

在我学习一种新的编程语言时，我喜欢编写一个简单的“猜数字”游戏来练习。电脑从 1 到 100 中随机挑选一个数字，你必须通过猜测来算出来。在另一篇文章中，我展示了如何用 Bash 语言编写这个“猜数字”游戏，我的同事也写了一些文章，介绍如何用 Java、Julia 和其他计算机语言编写它。

“猜数字”游戏的伟大之处在于它践行了几个编程概念：如何使用变量、如何比较值、如何打印输出以及如何读取输入。

整个夏天，我录制了一个系列视频，教人们如何用 C 语言编写程序。从那以后，我听到了很多人都在跟着它学习 C 语言编程的消息。所以，我想接着用 C 语言写一个“猜数字”的游戏。

 1#include <stdio.h> 2#include <sys/random.h> 3int 4randnum(int maxval) 5{ 6  /* pick a random number from 1 to maxval */ 7  int randval; 8  getrandom(&randval, sizeof(int), GRND_NONBLOCK); 9  /* could be negative, so ensure it's positive */10  if (randval < 0) {11    return (-1 * randval % maxval + 1);12  }13  else {14    return (randval % maxval + 1);15  }16}1718int19main(void)20{21  int number;22  int guess;23  number = randnum(100);24  puts("Guess a number between 1 and 100");25  do {26    scanf("%d", &guess);27    if (guess < number) {28      puts("Too low");29    }30    else if (guess > number) {31      puts("Too high");32    }33  } while (guess != number);34  puts("That's right!");35  return 0;36}

在学习一门新的编程语言时，这个“猜数字”游戏是一个很好的入门程序，因为它以一种非常直接的方式练习了几个常见的编程概念。通过用不同的编程语言实现这个简单的游戏，你可以演示一些核心概念，并比较每种语言的细节。

6. [计算机视觉中的Transformer - 相关进展]

英文原文：
https://towardsdatascience.co...

DETR 应该是去年 2020 目标检测引用量排名前 Top3 的论文

Transformer结构已经在许多自然语言处理任务中取得了最先进的成果。Transformer 模型的一个主要的突破可能是今年年中发布的GPT-3，被授予NeurIPS2020“最佳论文“。

在计算机视觉领域，CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构，计算机视觉和自然语言处理越来越收敛到一起，使用Transformer来完成视觉任务成为了一个新的研究方向，以降低结构的复杂性，探索可扩展性和训练效率。

以下是几个在相关工作中比较知名的项目：

DETR(End-to-End Object Detection with Transformers)，使用Transformers进行物体检测和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE)，使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels)，使用Transformer进行像素级图像补全，就像其他GPT文本补全一样。
End-to-end Lane Shape Prediction with Transformers，在自动驾驶中使用Transformer进行车道标记检测

7. TPAMI 2021 | 深度学习行人重识别综述与展望

本文作者：叶茫
https://zhuanlan.zhihu.com/p/...
Paper: https://arxiv.org/abs/2001.04...
GIthub:
https://github.com/mangye16/R...

行人重识别（Person Re-Identification，简称Re-ID），是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术，在智慧城市等监控场景中具有重要的应用意义和前景。本文介绍我们最新的IEEE TPAMI综述论文《Deep Learning for Person Re-identification: A Survey and Outlook》，该文作者来自武汉大学、起源人工智能研究院（IIAI）、北理工、英国萨里大学、Salesforce亚洲研究院。

这里先总结该综述的几个主要贡献点：

综述：全面调研了近年来深度学习在Re-ID领域的进展，囊括了近几年三大视觉顶会上的大部分文章（如有遗漏，请谅解）。主要包括Closed-world Re-ID与Open-world Re-ID的研究进展，常用数据集和评价指标的概述，并分析了现有方法的不足和改进点。
展望：1) 一个新的评价指标mINP，用来评价找到最困难匹配行人所需要的代价；2) 一个强有力的AGW方法，在四种不同类型的Re-ID任务，包括12个数据集中取得了较好的效果；3) 从五个不同的方面讨论了未来Re-ID研究的重点和难点，仅供大家参考。

8. 10万奖金！保姆级参赛教程全公开，还有免费GPU算力提供！

2020年的世界，是人类社会对抗病毒生物的世界，计算生物学研究成为疫苗研制、新药研发的新突破口。近期，百度飞桨上线了10万奖池生物计算大赛：螺旋桨RNA结构预测竞赛：Unpaired Probability Prediction。比赛不仅聚焦AI战疫的真实技术难点，更得到了世界知名计算生物学专家David H. Mathews和北京大学生命科学学院教授刘君的大力支持与指导。

【赛题任务】该赛题旨在解决RNA结构预测问题，要求参赛选手基于百度发布的2个世界上最快的算法：RNA二级结构预测算法LinearFold和 RNA配分方程算法LinearPartition，预测给定RNA序列在每个位点上保持不成对的概率。

9. 寒武纪首颗AI训练芯片亮相：7纳米制程，算力提升四倍，已规模化出货 | 机器之心

思元 290 智能芯片是寒武纪的首颗训练芯片，采用台积电 7nm 先进制程工艺，集成 460 亿个晶体管，支持 MLUv02 扩展架构，全面支持 AI 训练、推理或混合型人工智能计算加速任务。

寒武纪 MLU290-M5 智能加速卡搭载思元 290 智能芯片，采用开放加速模块 OAM 设计，具备 64 个 MLU Core，1.23TB/s 内存带宽以及全新 MLU-Link™多芯互联技术，在 350W 的最大散热功耗下提供 AI 算力高达 1024 TOPS（INT4）。

寒武纪玄思 1000 智能加速器，在 2U 机箱内集成 4 颗思元 290 智能芯片，高速本地闪存、Mellanox InfiniBand 网络，对外提供高速 MLU-Link™接口，打破智能芯片、服务器、POD 与集群的传统数据中心横向扩展架构，实现 AI 算力在计算中心级纵向扩展，是 AI 算力的高集成度平台。

寒武纪训练产品线采用自适应精度训练方案，面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力，推动人工智能赋能产业升级。

论文推荐

《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》
优于EIOU、Focal Loss、CIOU等，直接替换大多数检测网络中的原损失函数，均涨点明显！如PAA、ATSS和RetinaNet等，作者单位：华南理工大学, 地平线, 中科院(谭铁牛等)
《CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented Object Detection in Remote Sensing Images》
从三个方面来提高检测精度：构建强大的特征表示，优化预设anchor和优化标签分配，表现SOTA！性能优于SCRDet、O2-DNet等网络，代码刚刚开源！作者单位：北京理工大学
- *

原文链接：https://mp.weixin.qq.com/s/QkSwv0Mg-lxi9z3c3xQDgA
转载已获授权，禁止二转