ICML最佳论文SD3上线公共教程！DreamBench++图像自动评估新基准，实现人类偏好深度对齐

微信图片_20240726171158.png
近日，ICML 2024 最佳论文公布了！其中就包含年度图像生成的「网红模型」——Stable Diffusion 3（简称 SD3）。SD3 是由 Stability AI 开发的最新文本到图像生成模型，前段时间已经全网开源！HyperAI 超神经现已上线 ComfyUI 工作流运行 SD3 的教程， 欢迎大家在阅读论文的同时体验 SD3 的技术革新！

SD3 教程链接：https://go.hyper.ai/ojO3g

7 月 22 日-7 月 26 日，hyper.ai 官网更新速览：

优质公共数据集：10 个
优质教程精选：3 个
社区文章精选：4 篇
热门百科词条：5 条
8 月截稿顶会：4 个

访问官网：hyper.ai

公共数据集精选

1. DreamBooth 图像数据集

该数据集包含 30 个不同类别的主体，包括 9 个活体主体（例如狗和猫）和 21 个对象，每个主体有 4 到 6 张图片。它允许使用少量图像来训练模型，使其能够在多种不同的情境中生成该特定个体的图像，同时保持其关键的视觉特征。

直接使用：https://go.hyper.ai/Jiqg6

2. ChlD 大规模中文成语数据集

该数据集包含 581K 段落和 729K 空白，并涵盖多个领域。在 ChID 中，段落中的习语被替换为空白符号。对于每个空白，提供包括黄金习语在内的候选习语列表作为选择。

直接使用：https://go.hyper.ai/dt4AR

3. CCPM 中国古典诗歌匹配数据集

该数据集为清华大学于 2021 年推出的中国古典诗歌匹配数据集 (Chinese Classical Poetry Matching Dataset)，包含训练集 (21,778 句)、验证集 (2,720 句) 和测试集 (2,720 句)。

直接使用：https://go.hyper.ai/ymhF6

4.MMDU 超长多图多轮对话理解数据集

MMDU 基准包括 110 个高质量的多图像多轮对话，其中包含 1,600 多个问题，每个问题都附有详细的长篇答案。MMUD 中的问题涉及 2 到 20 张图像，平均图像和文本标记长度为 8.2K 个标记，最大图像和文本长度达到 18K 个标记，对现有的多模态大型模型提出了重大挑战。

直接使用：https://go.hyper.ai/vNyjl

5. ModeINet10 普林斯顿 3D 对象数据集

ModelNet10 数据集是 ModelNet40 数据集的一部分，包含浴缸、床、椅子、桌子等 10 类 CAD 家具模型的 4,899 个预对齐形状。其中 3,991 个 (80%) 形状用于训练，908 个 (20%) 形状用于测试。

直接使用：https://go.hyper.ai/ZPFKs

6. Fall detection Dataset 跌倒检测数据集

该数据集包含图像文件夹和标签文件夹。图像文件夹包含两个子文件夹 train (374 张图像）用于训练，Val（111 张图像）用于验证。

直接使用：https://go.hyper.ai/WAKTy

7. baike _qa2019 百科类问答 json 版数据集

该数据集含有 150 万个预先过滤过的、高质量问题和答案，每个问题属于一个类别。总共有 492 个类别，其中频率达到或超过 10 次的类别有 434 个。

直接使用：https://go.hyper.ai/3KWJ8

8. DreamBench++ 图像自动评估基准数据集

DreamBench++ 是一个由清华大学、西安交通大学、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员于 2024 年共同推出的新基准，旨在解决个性化图像生成技术评估中存在的问题。它通过引入支持多模态的 GPT-4o，实现了与人类偏好的深度对齐和自动化评估，并推出了一个更为全面和多元化的数据集。

直接使用：https://go.hyper.ai/glVDV

9. COVID-19 Radiography Database 胸部X光图像数据库

该数据集包含 3,616 个 COVID-19 阳性案例、 10,192 个正常案例、 6,012 个肺部不透明 (非 COVID-19 肺部感染) 案例和 1,345 个病毒性肺炎图像及相应的肺部掩模图像，用于帮助研究人员在 COVID-19 大流行期间开展研究工作。

直接使用：https://go.hyper.ai/89Wxz

10. Oceanlnstruct 海洋大模型指令数据集

该数据集包含 2 万条指令，旨在为海洋领域的大型语言模型提供训练数据。这些指令覆盖了广泛的海洋科学知识，确保模型在海洋科学问答、内容生成和水下具身智能能力等方面具备专业能力。

直接使用：https://go.hyper.ai/WuYlv

更多公共数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. 在线教程 | Stable Diffusion 3 Medium 现已开源，一键开启你的创作之旅！

文生图界的扛把子 Stability AI 开源的模型 Stable Diffusion 3 Medium（简称 SD3），在图像质量、复杂提示理解以及资源效率方面都有显著提升，能够生成细节逼真、色彩鲜艳、光照自然的图像，可适应多种风格！教程将 SD3 的文生图能力与 ComfyUI 的工作流强强结合，即刻上手开启创作之旅。

在线运行：https://go.hyper.ai/ojO3g

2. Kolors 快手可图文生图大模型 Demo

Kolors 是快手 Kolors 团队开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿个文本图像对的训练，Kolors 在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面比开源和闭源模型表现出显着优势。该教程无需输入任何命令，一键克隆即可立即开启图像生成。

在线运行：https://go.hyper.ai/ur8q7

3. 一键部署 Mistral-Nemo-Instruct-2407

Mistral-Nemo-Instruct-2407 是Mistral AI 和 NVIDIA 联合开源的 Mistral-Nemo-Base-2407 指令微调版本，其性能明显优于现有较小或类似尺寸的模型。Mistral NeMo 参数量为 120 亿 (12B)，上下文窗口为 128k，其推理、世界知识和编码准确性在同类规模中处于领先地位。该教程为一键部署 Mistral-Nemo-Instruct-2407，相关环境和依赖已经安装完毕，只需克隆即可推理体验。

在线运行：https://go.hyper.ai/zGkci

社区文章精选

1. 小模型大突破！神经网络透视空间异质性，准确描述复杂地理现象

在「Meet AI4S」系列直播第一期中，HyperAI超神经有幸邀请到了浙江大学遥感与地理信息系统博士生丁佳乐。他以「神经网络为房价的空间异质性提供新解释」为题，深入浅出地对研究成果进行了讲解。本文是对丁博士的分享精华总结。

查看完整报道：https://go.hyper.ai/g2fXy

2. 引入零样本学习，华中科大发布针对甲骨文破译优化的条件扩散模型

华中科技大学白翔、刘禹良研究团队联合阿德莱德大学、安阳师范学院、华南理工大学，利用基于图像的生成模型，训练出了一种针对甲骨文破译优化的条件扩散模型 OBSD，为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。本文是对相关论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/fLcZU

3. 数据集汇总丨萝卜快跑明年盈利？自动驾驶开启「端到端」新时代，高质量数据集助力 AI 大模型上车

自动驾驶开启「端到端」新时代，高质量数据集扮演重要角色。对此，HyperAI超神经为大家汇总了 10 个热门开源的自动驾驶数据集供大家收藏使用。

查看完整报道：https://go.hyper.ai/5nj1s

4. 入选ACL 2024！浙大推出首个海洋大语言模型OceanGPT，水下具身智能成现实