AI学习者 · 2023年12月26日

苹果发布开源多模态大语言模型Ferret

科技媒体 VentureBeat 报道称,苹果公司在 2023 年 10 月低调发布了一款名为 Ferret 的开源多模态大语言模型,这是苹果与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码和权重(仅限研究用途,不包含商业许可),但并未引起太多关注。

随着近期 Mistral 的开源 MoE 模型成为焦点,以及谷歌的 Gemini 模型即将在 Pixel Pro 上亮相,未来还将进入 Android 系统,越来越多人开始关注本地 LLMs 为小型设备提供支持的潜力。

近日,专注于医疗领域开源 AI 的欧洲非营利组织负责人 Bart de Witte 在 X 平台上分享了他的惊讶:“我之前竟然没发现这个。” 他表示,“苹果在 10 月份加入了开源 AI 圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺,巩固了它在多模态 AI 领域的领先地位…… 另外,我很期待有一天 Local Large Language Models (LLLMs) 能作为重新设计的 iOS 的一部分,在我的 iPhone 上运行。”

苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。

简单地说,该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。

例如,高亮显示图像中的动物图片并询问 LLM 这是什么动物,LLM 可以确定该动物的种类,并确定用户所指的是动物群中的某只动物。然后,它还可以利用图像中检测到的其他项目的上下文,提供进一步的回复。

image.png

GitHub:https://github.com/apple/ml-ferret
论文:https://arxiv.org/abs/2310.07704

Ferret 拥有 (7B, 13B) 两个版本,为了增强 Ferret 模型的能力苹果特别收集了一个 GRIT 数据集。它包含了 1.1M 个样本,这些样本包含了丰富的层次空间知识。

尽管苹果以往以其产品和技术的封闭性著称,但现在它通过发布开源 LLM 模型,正逐渐改变这一形象,展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身,也对整个 AI 领域来说,都是一个值得关注的重要发展方向。

VentureBeat 撰稿人 Ben Dickson 写道:“2023 年最让你意外的人工智能进展是什么?对我来说,是苹果发布了开源 LLMs(虽然是非商业许可)。” 他指出,苹果一贯以来是封闭系统、围墙花园开发、保密、严格的保密协议、发布极少细节、并为其产品申请每一项小的专利的代表。

相关链接:https://venturebeat.com/ai/apple-quietly-released-an-open-source-multimodal-llm-in-october/

作者:OSC
文章来源:OSC开源社区

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
17177
内容数
1239
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息