干货！一键领取超火的 20 个 LLM 中文数据集

以下文章来源于OpenBayes贝式计算，作者小贝

OpenBayes贝式计算.
OpenBayes贝式计算是中国领先的高性能计算服务提供商，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，向工业企业及高校科研提供更加快速、易用的数据科学计算产品，目前已服务数十家大型工业企业及头部科研院所。

自 ChatGPT 重磅推出以来，大语言模型 (large language Model, LLM) 以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。

本文整理了一些适用于大模型训练调优的热门中文公开数据集（按照首字母 A-Z 顺序排列），以供大家了解和使用。

温馨提示：

本文列举的所有数据集，均可在 OpenBayes.com 平台一键 Input 直接在模型训练和部署中使用。

链接直达：

https://openbayes.com/console/public/datasets

1 Ape210K 中国小学水平数学问题

* 发布机构：猿辅导 AI Lab、西北大学

* 相关标签：算术任务、文本生成

* 直接使用：_https://hyper.ai/datasets/28445_

Ape210K 是一个新的大规模和模板丰富的数学单词问题数据集，包含 210k 个中国小学水平的数学问题。每个问题都包含最佳答案和得出答案所需的方程式。

2 Belle 数据集

* 发布机构：讯飞科大、CCL、HFL

* 相关标签：文本生成、中文

* 直接使用：_https://hyper.ai/datasets/28451_

本数据集使用了 1,000 个样本的评估集来评估各种模型，涵盖 9 个真实场景，包含约350 万条由BELLE项目生成的中文指令数据。

3 Chinese Squad

中文机器阅读理解数据集

* 相关标签：抽取式问答、智能问答

* 直接使用：_https://hyper.ai/datasets/28476_

本数据集是中文机器阅读理解数据集，通过机器翻译加人工校正的方式从原始 Squad 转换而来，其中包括 V1.1 和 V2.0。

4 CMRC 2018 中文机器阅读理解评测数据集

* 发布机构：讯飞科大、CCL、HFL

* 相关标签：文本生成

* 直接使用：_https://hyper.ai/datasets/28470_

本数据集包含第二届「讯飞杯」中文机器阅读理解评测 (CMRC 2018) 所使用的数据，并且已被计算语言学顶级国际会议 EMNLP 2019 录用。

5 CrossWOZ 任务导向对话数据集

* 发布机构：清华大学、BNRIST

* 相关标签：问答数据集、中文

* 直接使用：_https://hyper.ai/datasets/28442_

CrossWOZ 是首个面向任务的大型中文跨域 Wizard-of-Oz 导向数据集。它包含 5 个场景（景点、酒店、餐馆、地铁、出租）的 6k 个对话和 102k 个句子。此外，语料库包含丰富的对话状态标注和用户与系统双方的对话行为。

6 DRCD Delta 阅读理解数据集

* 发布机构：台达研究中心、台达电子

* 相关标签：文本检测、机器学习

* 直接使用：_https://hyper.ai/datasets/28473_

台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD) 属于通用领域繁体中文机器阅读理解资料集。该数据集旨在成为标准的中文机器阅读理解数据集，包含来自 2,108 篇维基百科文章的 10,014 个段落和由标注人员生成的 30,000 多个问题。

7 Douban Conversation Corpus 豆瓣会话语料库

* 发布机构：北京航空航天大学、南开大学、MSR

* 相关标签：问答解析、自然语言处理

* 直接使用：_https://hyper.ai/datasets/28497_

本数据集包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含 1000 个对话上下文，对于每个上下文，创建了 10 个响应作为候选。

8 DuReader 问答数据集

* 发布机构：百度

* 相关标签：问答数据集、智能问答

* 直接使用：_https://hyper.ai/datasets/28461_

DuReader 是关注于机器阅读理解领域的基准数据集和模型，主要用于智能问答任务。

9 E-KAR 中文版可解释知识密集型类比推理基准

* 发布机构：复旦大学、ByteDance AI Lab、Brain Technologies, Inc.

* 相关标签：文本生成、自然语言处理

* 直接使用：_https://hyper.ai/datasets/28517_

E-KAR 全称 Benchmark for Explainable Knowledge-intensive Analogical Reasoning，是一个可解释知识密集型类比推理的基准。现有的词语类比测试基准并不能揭示神经模型类比推理的底层过程，研究人员认为具有推理能力的模型应以正确的理由作为基本信念，因此提出了首个知识性可解释类比推理基准 (E-KAR)。基准数据集包括来自公务员考试的 1,655 个（中文）和 1,251 个（英文）问题，解决这些问题需要大量的背景知识。

10 FCGEC 中文语法检错纠错数据集

* 发布机构：浙江大学、华为

* 相关标签：文本检测

* 直接使用：_https://hyper.ai/datasets/28512_

FCGEC 全称 Fine-Grained Corpus for Chinese Grammatical Error Correction，是一个大规模母语使用者的多参考文本纠检错语料，用于训练以及评估纠检错模型系统，数据来源主要是小初高中学生的病句试题以及新闻聚合网站。

11 KdConv 中文多领域会话数据集

* 发布机构：清华大学

* 相关标签：文本生成

* 直接使用：_https://hyper.ai/datasets/28507_

KdConv 是一个中文多领域知识驱动的对话数据集，将多轮对话中的主题建立在知识图谱上。KdConv 包含来自三个领域（电影、音乐和旅行）的 4.5K 个对话，以及平均转数为 19.0 的 86k 个话语。适用于对多转向人类对话中的知识交互进行建模，包括知识规划、知识基础、知识适应等。

12 Math23K 数学单词数据集

* 发布机构：Tencent AI Lab

* 相关标签：语料库、数学问题

* 直接使用：_https://hyper.ai/datasets/28504_

Math23K 全称 Math23K for Math Word Problem Solving，是为解决数学单词问题而创建的数据集，包含从互联网上爬取的 23,162 个中文问题。

13 MedDialog 中文医患对话数据集

* 相关标签：医学研究、对话数据集

* 直接使用：_https://hyper.ai/datasets/28483_

MedDialog 是大规模的医疗对话数据集，其中包含医生和患者之间的 110 万条对话和 400 万条话语。

14 ODSQA 开放域口语智能问答数据集

* 发布机构：台湾大学

* 相关标签：智能问答、自然语言处理

* 直接使用：_https://hyper.ai/datasets/28500_

ODSQA 数据集是用于中文问答的口语数据集，它包含来自 20 位不同演讲者的三千多个问题。

15 RedGPT 自动生成事实型对话数据集

* 相关标签：文本生成、自然语言处理

* 直接使用：_https://hyper.ai/datasets/28448_

RedGPT 全称 Reference-Enlightened-Dialogue by GPT and for GPT。事实正确性是 ChatGPT 的一大薄弱环节，想要提升事实正确性，可以标注大量的事实型对话数据用于微调 GPT 模型。为避免人工标注的昂贵成本，研究人员提出一种自动生成事实型对话的方法，并公开部分数据 (RedGPT-Dataset-V1-CN)，其中共包含 5 万条中文多轮对话。

16 The United Nations Parallel Corpus 联合国平行语料库 v1.0

* 发布机构：清华大学、BNRIST

* 相关标签：问答数据集、中文

* 直接使用：_https://hyper.ai/datasets/28464_

17 VQA 视觉问答数据集

* 相关标签：视觉问答、问答数据集

* 直接使用：_https://hyper.ai/datasets/28455_

深度学习的发展促进了多模态学习相关任务的解决。视觉问答 (VQA) 是其中极具挑战的例子，它要求从图像中进行高阶场景的解释 (interpretation)，并结合相关的问答语言进行建模。给定一张图像和关于该图像的自然语言问题，任务是提供一个准确的自然语言答案。这是一个使用 Keras 实现的端到端系统，旨在完成这一任务。

18 WebQA v1.0 百度中文问答数据集

* 发布机构：百度

* 相关标签：深度学习、智能问答

* 直接使用：_https://hyper.ai/datasets/28467_

这是百度于 2016 年开源的数据集，数据来自于百度知道。格式为一个问题多篇意思基本一致的文章，分为人为标注以及浏览器检索。

19 XiaChuFang Recipe Corpus 下厨房食谱语料库

* 相关标签：文本识别、文本检测

* 直接使用：_https://1lh.cc/4jaL8b_

本食谱语料库包含 1,520,327 种中国食谱。其中，1,242,206 食谱属于 30,060 菜肴。一道菜平均有 41.3 个食谱。食谱由 415,272 位作者贡献。其中，最有生产力的作者上传 5,394 食谱。

* 直接使用：_https://hyper.ai/datasets/28489_

20 XQuAD 跨语言问答数据集

* 发布机构：讯飞科大、CCL、HFL

* 相关标签：问答解析、阅读理解

* 直接使用：_https://hyper.ai/datasets/28458_

XQuAD（跨语言问答数据集）是一个用于评估跨语言问答性能的基准数据集。该数据集由 SQuAD v1.1（Rajpurkar 等，2016）开发集中的 240 个段落和 1,190 个问题-答案对的子集组成。

一键 Input 上述数据集

丰富的数据集背后仍需要高质量算力平台的支持。目前，OpenBayes 贝式计算平台已支持数据集一键绑定，只需在创建容器期间一键 Input，即可将目标数据集绑定到对应容器，省去了繁琐的下载和上传过程，也不会占用用户个人的存储空间。

视频教程参考：

【OpenBayes 官方教程】组织协作\_哔哩哔哩\_bilibili

详细文档参见：_https://1lh.cc/v2ao4q_

此外，OpenBayes 平台还提供超过 500 个精选公共数据集、模型、教程等优质资源，并已经整合到「公共资源」模块中。

现在体验极速绑定，请访问

https://openbayes.com/console/login

1 Ape210K 中国小学水平数学问题

2 Belle 数据集

3 Chinese Squad

4 CMRC 2018 中文机器阅读理解评测数据集

5 CrossWOZ 任务导向对话数据集

6 DRCD Delta 阅读理解数据集

7 Douban Conversation Corpus 豆瓣会话语料库

8 DuReader 问答数据集

9 E-KAR 中文版可解释知识密集型类比推理基准

10 FCGEC 中文语法检错纠错数据集

11 KdConv 中文多领域会话数据集

12 Math23K 数学单词数据集

13 MedDialog 中文医患对话数据集

14 ODSQA 开放域口语智能问答数据集

15 RedGPT 自动生成事实型对话数据集

16 The United Nations Parallel Corpus 联合国平行语料库 v1.0

17 VQA 视觉问答数据集

18 WebQA v1.0 百度中文问答数据集

19 XiaChuFang Recipe Corpus 下厨房食谱语料库

20 XQuAD 跨语言问答数据集

推荐阅读

目录

干货！ 一键领取超火的 20 个 LLM 中文数据集

1 Ape210K 中国小学水平数学问题

2 Belle 数据集

3 Chinese Squad

4 CMRC 2018 中文机器阅读理解评测数据集

5 CrossWOZ 任务导向对话数据集

6 DRCD Delta 阅读理解数据集

7 Douban Conversation Corpus 豆瓣会话语料库

8 DuReader 问答数据集

9 E-KAR 中文版 可解释知识密集型类比推理基准

10 FCGEC 中文语法检错纠错数据集

11 KdConv 中文多领域会话数据集

12 Math23K 数学单词数据集

13 MedDialog 中文医患对话数据集

14 ODSQA 开放域口语智能问答数据集

15 RedGPT 自动生成事实型对话数据集

16 The United Nations Parallel Corpus 联合国平行语料库 v1.0

17 VQA 视觉问答数据集

18 WebQA v1.0 百度中文问答数据集

19 XiaChuFang Recipe Corpus 下厨房食谱语料库

20 XQuAD 跨语言问答数据集

推荐阅读

目录

干货！一键领取超火的 20 个 LLM 中文数据集

9 E-KAR 中文版可解释知识密集型类比推理基准