清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿

MedTrinity-25M 包含了超过 2,500 万张医学图像，涵盖了 10 种成像模式，还标注了 65 种以上的疾病。此数据集不仅包含丰富的全局及局部注释，同时还在多种模态（如 CT 、 MRI、 X 光等）中整合了多层次的信息注释。该数据集将为医学图像处理、报告生成、分类和分割等多模态任务提供巨大的支持，同时推动基于医学的人工智能模型的预训练。

直接使用：https://go.hyper.ai/JCSJP

8. 1920 raider waite tarot 塔罗牌图像数据集

这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述，为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索，可用于训练模型生成塔罗牌风格的图像。

直接使用：https://go.hyper.ai/8bd2R

9. Waterloo Exploration 大规模图像质量评估数据库
该数据库包含 4,744 张原始自然图像和 94,880 张由这些原始图像创建的失真图像，可用于测试图像质量评估模型的泛化能力。
直接使用：https://go.hyper.ai/m5mhN

10. SWE-bench Verified 代码生成评估基准数据集

该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

直接使用：https://go.hyper.ai/oxOBY

更多公共数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. ComfyUl AuraFlow 文生图工作流 Demo

这个模型在 GenEval 上实现了最先进的结果，在文生图任务上拥有更高的处理效率，更好的细节呈现。该教程为使用 ComfyUI 部署 AuraFlow 文生图模型，模型和相关环境配置已经搭建完毕，一键克隆即可进行推理使用。

直接使用：https://go.hyper.ai/KpI4B

2. Whisper Web 在线语音识别工具

Whisper 基于 ML 进行语音识别，并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音，识别到的文本支持导出 TXT 和 JSON 两种文件格式，还可以直接翻译为英文。该教程是基于 GitHub 上的开源项目 Whisper Web，直接在浏览器中运行使用 Whisper。

直接使用：https://go.hyper.ai/N3iwm

社区文章精选

1. 抗击化疗耐药性与肿瘤复发！山东大学研究团队用 AI 构筑乳腺癌干细胞的有力防线

近日，山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐，联合螺旋矩阵公司等研究团队，取得了突破性进展，运用机器学习技术，基于 mRNA 的分析，成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/SPAjK

2. 上海交大周冰心博士：锚定稀缺生物数据挑战，图神经网络重塑蛋白质理解与生成

在上海交通大学 AI for Bioengineering 暑期学校中，上海交通大学周冰心博士以「图神经网络与蛋白质结构表征」为主题，向大家分享了图神经网络的定义、优势、及其在蛋白质预测与生成等领域的前沿应用。本文是周冰心博士分享的精华实录。

查看完整报道：https://go.hyper.ai/GjXi5

3. 入选 ACL2024 主会 | InstructProtein：利用知识指令对齐蛋白质语言与人类语言

浙江大学研究团队提出 InstructProtein，利用知识指令对齐蛋白质语言与人类语言，展示了将生物序列整合到大型语言模型的能力。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/GjXi5

热门百科词条精选