FPGA纯verilog实现16路视频拼接显示，提供工程源码和技术支持

1、前言

没玩过图像拼接都不好意思说自己玩儿过FPGA，这是CSDN某大佬说过的一句话，鄙人深信不疑。。。
图像拼接在实际项目中应用广泛，特别是在医疗和军工行业，目前市面上的图像拼接方案主要有Xilinx官方推出的Video Mixer方案和自己手撕代码的自定义方案；Xilinx官方推出的Video Mixer方案直接调用IP，通过SDK配置即可实现，但他的使能难度较高，且对FPGA资源要求也很高，不太适合小规模FPGA，在zynq和K7以上平台倒是很使用，如果对Video Mixer方案感兴趣，可以参考我之前的博客，博客地址：
点击直接前往

本文使用Xilinx的Kintex7 FPGA纯verilog代码实现16路视频图像拼接，视频源有两种，分别对应开发者手里有没有摄像头的情况，一种是使用廉价的OV5640摄像头模组；如果你得手里没有摄像头，或者你得开发板没有摄像头接口，则可使用代码内部生成的静态彩条模拟摄像头视频；视频源的选择通过代码顶层的`define宏定义进行，默认使用ov5640作为视频源；由于我的手里只有一个摄像头，所以fpga采集摄像头数据后，直接复制多份，用来模拟多路摄像头输入；使用我常用的FDMA方案实现图像的三帧缓存，不同的视频缓存在DDR3中不同的地址，读视频时一次性将视频缓存区域读完，从而实现视频拼接的功能；输出视频分辨率为1920x1080，实现16路视频拼接，所以每路视频的分辨率就为240x540，这样刚好16路视频占满输出屏幕，看起来美观一些；读出视频后，用纯verilog显示的HDMI输出模块送显示器显示即可；

本博客详细描述了FPGA纯verilog实现视频拼接的设计方案，工程代码可综合编译上板调试，可直接项目移植，适用于在校学生、研究生项目开发，也适用于在职工程师做学习提升，可应用于医疗、军工等行业的高速接口或图像处理领域；
提供完整的、跑通的工程源码和技术支持；
工程源码和技术支持的获取方式放在了文章末尾，请耐心看到最后；

版本更新说明

此版本为第2版，根据读者的建议，对第1版工程做了如下改进和更新：
1：增加了输入视频静态彩条的选择，有的读者说他手里没有OV5640摄像头或者摄像头原理图和我的不一致，导致在移植过程中困难很大，基于此，增加了静态彩条，它由FPGA内部产生，不需要外接摄像头就可以使用，使用方法在后文有说明；
2：优化了FDMA，之前的FDMA内AXI4的数据读写突发长度为256，导致在低端FPGA上带宽不够，从而图像质量不佳，基于此，将FDMA内AXI4的数据读写突发长度改为128；
3：优化了HDMI输出模块，之前用的自定义IP，有读者说IP无法更新，虽能正常使用，但看源码不方便，基于此，将HDMI输出模块改为纯verilog实现的，直接了当；

免责声明

本工程及其源码即有自己写的一部分，也有网络公开渠道获取的一部分(包括CSDN、Xilinx官网、Altera官网等等)，若大佬们觉得有所冒犯，请私信批评教育；基于此，本工程及其源码仅限于读者或粉丝个人学习和研究，禁止用于商业用途，若由于读者或粉丝自身原因用于商业用途所导致的法律问题，与本博客及博主无关，请谨慎使用。。。

2、我已有的FPGA视频拼接叠加融合方案

我的主页目前有FPGA视频拼接叠加融合专栏，改专栏收录了我目前手里已有的FPGA视频拼接叠加融合方案，从实现方式分类有基于HSL实现的视频拼接、基于纯verilog代码实现的视频拼接；从应用上分为单路、2路、3路、4路、8路、16路视频拼接；视频缩放+拼接；视频融合叠加；从输入视频分类可分为OV5640摄像头视频拼接、SDI视频拼接、CameraLink视频拼接等等；以下是专栏地址：
点击直接前往

3、设计思路框架

本博客提供1套vivado工程源码，工程设计框图如下：
在这里插入图片描述

视频源选择

视频源有两种，分别对应开发者手里有没有摄像头的情况，如果你的手里有摄像头，或者你的开发板有摄像头接口，则使用摄像头作为视频输入源，我这里用到的是廉价的OV5640摄像头模组；如果你得手里没有摄像头，或者你得开发板没有摄像头接口，则可使用代码内部生成的静态彩条模拟摄像头视频，动态彩条是移动的画面，完全可以模拟视频；默认使用ov5640作为视频源；视频源的选择通过代码顶层的`define宏定义进行；如下：
在这里插入图片描述
选择逻辑代码部分如下：

选择逻辑如下：
当(注释) define USE_SENSOR时，输入源视频是静态彩条；
当(不注释) define USE_SENSOR时，输入源视频是ov5640摄像头；

OV5640摄像头配置及采集

OV5640摄像头需要i2c配置才能使用，需要将DVP接口的视频数据采集为RGB565或者RGB888格式的视频数据，这两部分均用verilog代码模块实现，代码位置如下：
在这里插入图片描述
其中摄像头配置为分辨率240x540，如下：

摄像头采集模块支持RGB565和RGB888格式的视频输出，可由参数配置，如下：

RGB_TYPE=0输出本RGB565格式；
RGB_TYPE=1输出本RGB888格式；
设计选择RGB565格式；

静态彩条

静态彩条可配置为不同分辨率的视频，视频的边框宽度，动态移动方块的大小，移动速度等都可以参数化配置，我这里配置为辨率240x540，动态彩条模块代码位置和顶层接口和例化如下：
在这里插入图片描述

视频拼接算法

视频拼接方案如下：
在这里插入图片描述
输出屏幕分辨率为1920X1080；
输入摄像头分辨率为240X540；
16路输入刚好可以占满整个屏幕；
多路视频的拼接显示原理如下：

以把 2 个摄像头 CAM0 和 CAM1 输出到同一个显示器上为列，为了把 2 个图像显示到 1 个显示器，首先得搞清楚以下关系：
hsize：每 1 行图像实际在内存中占用的有效空间，以 32bit 表示一个像素的时候占用内存大小为 hsize*4；
hstride：用于设置每行图像第一个像素的地址,以 32bit 表示一个像素的时候 v_cnt hstride4；
vsize：有效的行；
因此很容易得出 cam0 的每行第一个像素的地址也是 v_cnt hstride4；
同理如果我们需要把 cam1 在 hsize 和 vsize 空间的任何位置显示，我们只要关心 cam1 每一行图像第一个像素的地址，可以用以下公式 v_cnt hstride4+offset；
uifdma_dbuf 支持 stride 参数设置，stride 参数可以设置输入数据 X(hsize)方向每一行数据的第一个像素到下一个起始像素的间隔地址，利用 stride 参数可以非常方便地摆放输入视频到内存中的排列方式。
关于uifdma_dbuf，可以参考我之前写的文章点击查看：FDMA实现视频数据三帧缓存
根据以上铺垫，每路摄像头缓存的基地址如下：
CAM0：ADDR_BASE=0x80000000；
CAM1：ADDR_BASE=0x80000000+(1920-240X1)X4；
CAM2：ADDR_BASE=0x80000000+(1920-240X2)X4；
CAM3：ADDR_BASE=0x80000000+(1920-240X3)X4；
CAM4：ADDR_BASE=0x80000000+(1080-540)X1920X4；
CAM5：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X1)X4；
CAM6：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X2)X4；
CAM7：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X3)X4；
CAM8：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X4)X4；
CAM9：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X5)X4；
CAM10：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X6)X4；
CAM11：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X7)X4；
CAM12：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X8)X4；
CAM13：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X9)X4；
CAM14：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X10)X4；
CAM15：ADDR_BASE=0x80000000+(1080-540)X1920X4+(1920-240X11)X4；
地址设置完毕后基本就完事儿了；

图像缓存

经常看我博客的老粉应该都知道，我做图像缓存的套路是FDMA，他的作用是将图像送入DDR中做3帧缓存再读出显示，目的是匹配输入输出的时钟差和提高输出视频质量，关于FDMA，请参考我之前的博客，博客地址：点击直接前往
这里16路视频拼接时，调用8路FDMA进行缓存，具体讲就是每一路视频调用1路FDMA；
调用16路FDMA，其中15路配置为写模式，因为这15路视频在这里只需要写入DDR3，读出是由另一个FDMA完成，配置如下：
在这里插入图片描述
另外1路FDMA配置为读写模式，因为16路视频需要同时一并读出，配置如下：

视频拼接的关键点在于16路视频在DDR3中缓存地址的不同，16路FDMA的写地址以此为：
第0路视频缓存写基地址：0x80000000；
第1路视频缓存写基地址：0x800003c0；
第2路视频缓存写基地址：0x80000780；
第3路视频缓存写基地址：0x80000b40；
第4路视频缓存写基地址：0x80000f00；
第5路视频缓存写基地址：0x800012c0；
第6路视频缓存写基地址：0x80001680；
第7路视频缓存写基地址：0x80001a40；
第8路视频缓存写基地址：0x803f4800；
第9路视频缓存写基地址：0x803f4bc0；
第10路视频缓存写基地址：0x803f4f80；
第11路视频缓存写基地址：0x803f5340；
第12路视频缓存写基地址：0x803f5700；
第13路视频缓存写基地址：0x803f5ac0；
第14路视频缓存写基地址：0x803f5e80；
第15路视频缓存写基地址：0x803f6240；
视频缓存读基地址：0x80000000；

视频输出

视频从FDMA读出后，经过VGA时序模块和HDMI发送模块后输出显示器，代码位置如下：
在这里插入图片描述
VGA时序配置为1920X1080，HDMI发送模块采用verilog代码手写，可以用于FPGA的HDMI发送应用，关于这个模块，请参考我之前的博客，博客地址：点击直接前往

4、vivado工程详解

开发板FPGA型号：Xilinx--Kintex7--xc7k325tffg676-2；
开发环境：Vivado2019.1；
输入：OV5640摄像头或动态彩条，分辨率240x540；
输出：HDMI，1080P分辨率下的16块240x540有效区域显示；
工程作用：FPGA纯verilog实现16路视频拼接显示；
工程BD如下：
在这里插入图片描述

因为这里用了16路FDMA，15路配置为只写模式，另一路配置为读写模式；
工程代码架构如下：
在这里插入图片描述
工程的资源消耗和功耗如下：

5、工程移植说明

vivado版本不一致处理

1：如果你的vivado版本与本工程vivado版本一致，则直接打开工程；
2：如果你的vivado版本低于本工程vivado版本，则需要打开工程后，点击文件-->另存为；但此方法并不保险，最保险的方法是将你的vivado版本升级到本工程vivado的版本或者更高版本；
在这里插入图片描述
3：如果你的vivado版本高于本工程vivado版本，解决如下：

打开工程后会发现IP都被锁住了，如下：

此时需要升级IP，操作如下：