超神经HyperAI · 9月3日 · 河北

在线教程 | 1 分钟生成万字悬疑小说,LongWriter-glm4-9b 突破长文输出瓶颈

微信图片_20240903161614.png
近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2,000 词的连贯输出时,往往会遇到困难。

主要的原因之一是因为 SFT(监督式微调)数据集长输出样本的稀缺性。 研究表明,模型的最大输出长度与其在 SFT 阶段接触的样本长度有显著的正相关性。换句话说,尽管模型已经学会了如何理解和处理长文本,但它们还没有充分学习如何生成同样长度的文本。

为了解决这一问题,清华大学联合智谱 AI 基于 AgentWrite 技术构建了名为 LongWriter-6k 的数据集,包含 6,000 个 SFT 数据样本,输出长度从 2k 到 32k 个单词不等。该数据集目前已上线至 HyperAI超神经官网数据集版块,支持一键 input。

数据集地址:

https://go.hyper.ai/77byR

随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。

目前,「一键部署 LongWriter-glm4-9b」已上线至 HyperAI超神经教程版块, 一键克隆即可开启对话。

教程地址:

https://go.hyper.ai/p6SiO

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,搜索「一键部署 LongWriter-glm4-9b」,点击「在线运行此教程」。

在这里插入图片描述

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 点击右下角「下一步:选择算力」。

在这里插入图片描述

  1. 页面跳转后,选择「NVIDIA RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

在这里插入图片描述

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

效果预览

  1. 打开 Demo 界面,我们让它生成一个 10,000 字的悬疑小说。

在这里插入图片描述

  1. 可以看到它迅速输出了一个长篇悬疑小说。

在这里插入图片描述

推荐阅读
关注数
694
文章数
436
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息