VILA 是 NVIDIA 研究部门与麻省理工学院共同开发的高性能视觉语言模型系列。最大的模型约有 400 亿参数,最小的模型约有 30 亿参数,并...
今天小编给大家带来的项目是来自国内的Maker制作的智能宠物猫砂盆,通过记录宠物进入猫砂盆排便的次数来提前预知猫咪的健康状况。
今天小编给大家带来的是矽递科技和硬禾学堂联合举办的寒假在家练活动的第三个项目,基于XIAO ESP32S3 sense的宠物猫检测项目,该项目使...
异常GPT是第一种基于视觉大模型(LVLM)的工业异常检测方法,该方法可以在不需要手动指定阈值的情况下检测工业图像中的异常。现有的工业...
本文为 AI 研习社编译的技术博客,原标题 :Image Segmentation Overview & ENet Implementation作者 | Aviv Shamsian翻译 | sherry3255...
今天小编给大家带来的是圣地亚哥的Maker Marcelo Rovai 使用 XIAO ESP32S3 Sensor 搭配Edge Impulse 实现的图像分类的项目。
前段时间一直在弄golang,很少关注一些开源项目。正巧碰到一个,可以将模糊的照片或者视频修复清晰,且可以超分处理的项目。
计算机视觉是深度学习领域最热门的研究领域之一,目前在各领域应用广泛,而它是如何发展至今,让我们一起回顾一下计算机视觉的发展史。
随着卷积神经网络在目标检测任务上的推进,它也开始被用于更精细的图像处理任务:语义分割和实例分割。目标检测只需要预测图像中每个对...
AiStudio是一个很好的学习平台,我相信无时无刻都有很多像我一样的小白出于对人工智能的兴趣,而汇聚在这里。这一次,我想做一个入门级...
PeleeNet: An efficient DenseNet architecture for mobile devices
近期,高效的视觉 Transformer 在资源受限的设备上展现出优异的低延迟性能。传统上,它们在宏观层面上采用4×4的块嵌入和4阶段结构,同时...
LSTM是一种RNN模型。RNN和CNN可以是DL的两种重要模型。CNN主要处理空间结构数据,RNN主要处理时间序列数据。但也不是绝对,本文中用作pr...
PointNet是斯坦福大学研究人员提出的一种点云处理网络,其可以直接输入无序点云集合进行处理,而不像基于投影的方法需要先对点云进行预...
ResNeXt是由何凯明团队在2017年CVPR会议上提出来的新型图像分类网络。ResNeXt是ResNet的升级版,在ResNet的基础上,引入了cardinality的...
采用kaggle上的猴子数据集,包含两个文件:训练集和验证集。每个文件夹包含10个标记为n0-n9的猴子。图像尺寸为400x300像素或更大,并且...
这里结合网络的资料和DenseNet论文,捋一遍DenseNet,基本代码和图片都是来自网络,这里表示感谢,参考链接均在后文。
得益于基础模型的发展,红外小目标检测(ISTD)算法取得了显著进展。特别是,结合卷积网络和 Transformer 结构的模型能够很好地提取局部...
随着移动计算技术的迅速发展,在移动设备上部署高效的目标检测算法成为计算机视觉领域的一个关键研究点。本研究聚焦于优化YOLOv7算法,...
大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用...