每周编辑精选｜老乡鸡开源「菜品溯源报告」、修复老照片 SUPIR 工具在线使用

号外！号外！老乡鸡的「机密文件」竟然被公开了！

近日，老乡鸡将 20 万字的《老乡鸡菜品溯源报告》向社会全面公开，从食材的源头到烹饪的细节，全都清清楚楚。现已在超神经提供下载，快来看看有没有你爱吃的！

PS：小编只想问，按照报告做翻车了能提 issue 吗？

4 月 15 日-4 月 19 日，hyper.ai 官网更新速览：

优质公共数据集：10 个
优质教程精选：2 个
社区文章精选：3 篇
热门百科词条：5 条

访问官网：hyper.ai

公共数据集精选

1. 老乡鸡菜品溯源报告

该数据集覆盖老乡鸡当前 1,218 家餐厅共计 226 个 SKU 、873 种原料以及 305 家供应商。老乡鸡将 677 页共 20 万字的《老乡鸡菜品溯源报告》向社会全面公开。

直接使用： https://go.hyper.ai/nbESl

2. Open Sora Dataset 项目视频数据集

Open-Sora-Plan 是一个开源项目，旨在复现 OpenAI 的 Sora（T2V 模型）。该数据集为其项目视频数据集。研究团队在 CC0 许可下从开源网站抓取了 40,258 个视频。所有视频均为高质量无水印，其中约 60% 为风景数据。

直接使用： https://go.hyper.ai/75Ftc

3. MMVP 多模态运动捕捉数据集

该数据集包含了诸多大范围且迅速的人体运动，如跑步、跳绳、立定跳远等，总计采集了 16 位受试者的逾 44k 帧同步 RGBD 帧以及压力数据。

直接使用：https://go.hyper.ai/4edeR

4. OpenWebMath 开放网络数学训练数据集

OpenWebMath 是一个包含来自互联网的大部分高质量数学文本的数据集。它是从 Common Crawl 上超过 200B 个 HTML 文件中过滤和提取的，最终形成一组 630 万个文档，总共包含 14.7B 个 tokens 。OpenWebMath 旨在用于预训练和微调大型语言模型。

直接使用：https://go.hyper.ai/zjytq

5. Proof-Pile-2 数学数据集

Proof-Pile-2 是一个包含 550 亿个数学和科学文档的 token 数据集。融合了科学论文、数学相关的网络内容和数学代码，其知识截止于2023年4月（不包括特定的 Lean 证明步骤子集）。创建此数据集是为了训练 Llemma 7B 和 Llemma 34B 模型。

直接使用：https://go.hyper.ai/aant8

6. Mizar 数学数据集

Mizar 数学库包含了经过形式化的数学定理和证明，涵盖了广泛的数学领域，包括逻辑、代数、分析、几何等。这个库的目标是提供一个可靠的数学基础，以便进行自动化的定理证明和形式化推理。

直接使用：https://go.hyper.ai/IJeHa

7. Isabelle 平行语料库

Isabelle 平行语料库 (IPC) 是一个由社区驱动的倡议，旨在创建 Isabelle 文档的平行语料库。IPC 将 Isabelle 中的形式化文档（如定理、引理、定义等）与它们的自然语言对应文本配对。

直接使用：https://go.hyper.ai/BEADY

8. Fruits Dataset 水果新鲜程度分类数据集

该数据集包含三种水果的图像：苹果、橙子和香蕉。每张图像都根据其水果类型和新鲜度状态进行标记，从而实现分类或对象检测等监督学习任务。

直接使用：https://go.hyper.ai/b7TNx

9. DeepFruit 水果图像分类数据集

DeepFruit 是穆罕默德·本·法赫德亲王大学等研究机构联合发布的水果图像分类数据集。该数据集包含基于 8 种不同水果集组合的 21,122 张水果图像。可以用于水果检测、识别和分类领域的研究，以及卡路里估算等其他创新应用。

直接使用：https://go.hyper.ai/ut4BA

10. 15 个动物图像分类数据集

该数据集包含 15 个动物的图像文件夹，所有图像大小均为 224X224，适合图像分类。图像从网络下载并使用 OpenCV 库进行了预处理（调整大小和增强）。因此，该数据集可以直接用于训练，无需进一步的数据增强。

直接使用：https://go.hyper.ai/tgMtH

更多公共数据集，请访问 ：

https://hyper.ai/datasets

公共教程精选

1. 在线教程｜低门槛部署！SUPIR 专治各种图片模糊，还能理解文本描述进行精修

图像修复工具 SUPIR 利用 StableDiffusion-XL (SDXL) 和模型扩展技术，通过机器学习和多模态方法，能够显著提升图像的修复质量。该教程为大家搭建好了环境，无需任何复杂的前期准备，点击即可一键修复图片。

在线运行：https://go.hyper.ai/3RBMH

2. 用 Ollama 和 Open WebUI 部署大模型

该教程为 Ollama + Open WebUI 一键运行包，只需按步骤输入命令即可运行大模型。目前包含的模型有：qwen 1.5 14b、qwen 1.5 32b、llava 1.6 34b，支持自行上传使用新的模型。

在线运行：https://go.hyper.ai/FwREK

社区文章精选

1. 加速催化剂设计，上海交大贺玉莲课题组基于 AutoML 进行知识自动提取

上海交通大学密西根学院助理教授贺玉莲课题组，针对确定决定 Eads 的关键物理量提出了一种新方法，即基于自动机器学习的特征删除实验，从高通量密度泛函理论数据库中实现了知识的自动提取。本文是对该研究的详细解读和分享。

查看完整报道：https://go.hyper.ai/LEVS1

2. 击败全球 No.1 系统、覆盖 80+ 国家，谷歌洪水预测模型再登 Nature

谷歌团队开发了一个基于机器学习的河流预报模型，该模型的预测能力优于目前全球最先进洪水预报系统 GloFAS，能够提前 5 天实现对洪水的可靠预测，可覆盖 80 多个国家。本文是对该研究的分享和解读。

查看完整文章：https://go.hyper.ai/V4r4i

3. 锂电池寿命预测精度提升 20%！上海交大团队发布半监督学习方法 PBCT，提取无标签数据中的隐藏信息

上海交通大学研究团队提出了一个半监督学习方法 PBCT，充分利用锂电池全生命周期中产生的低成本且丰富的无标签数据，通过提取其中的隐藏信息，深化对底层数据模式的认识，锂电池寿命预测精度提升 20%。本文是对该研究的分享和解读。

查看完整报道：https://go.hyper.ai/2EQGa

热门百科词条精选

1. Epoch

2. 学习率 Learning Rate

3. 配对 t 检验 Paired t-Test

4. 扩散模型 Diffusion Model

5. 大语言模型 Large Language Model

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://hyper.ai/wiki

B 站直播预告

Google 日前宣布将于 5 月 14 日举办 2024 年度 I/O 开发者大会，为了帮助大家深入了解 Google ，超神经直播间将 从下周一开始 7x24 小时不间断直播「Google 专题」视频， 涉及：Google I/O 历年发布会、高管访谈、相关纪录片等丰富内容。

下表为小编为大家精选的内容预告↓↓↓

日期	时间	内容
4 月 15 日星期一	18:00	Google 历年 I/O 发布会
4 月 16 日星期二	18:00	Google Cloud NEXT 历年大会
4 月 17 日星期三	18:00	TIME100 访谈Sundar Pichai
4 月 18 日星期四	18:00	Google 首席执行官谈中美人工智能竞赛
4 月 19 日星期五	18:00	AlphaGo 纪录片
4 月 20 日星期六	18:00	Google 纪录片背后创始人的故事
4 月 21 日星期日	18:00	BBC 纪录片没有 Google 的世界

超神经电视台 7×24h 不间断直播，点击即可收获 AI 领域的「电子榨菜」：

http://live.bilibili.com/2648...

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区， 致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

为 1200+ 公开数据集提供国内加速下载节点
收录 300+ 经典及流行在线教程
解读 100+ AI4Science 论文案例
支持 500+ 相关词条查询
托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai/

推荐阅读

超神经HyperAI

目录