汀丶人工智能 · 2023年07月22日 · 浙江

文心千帆:PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了

文心千帆:PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了,下面给出简介和使用指南,快去使用起来吧

文心千帆大模型平台是面向企业开发者的一站式大模型开发及服务运行平台。文心千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。文心千帆数据管理、自动化模型SFT以及推理服务云端部署一站式大模型定制服务,助力各行业的生成式AI应用需求落地。

1.应用场景

面向不同的企业需求,文心千帆提供不同的功能服务。例如,智能对话、智能输入法等通用应用场景,可在文心千帆直接体验文心一言企业级推理云服务,并进行业务集成;细分领域电销场景的商品介绍、推广文章等需要对推理结果进行定制调整,则可在文心千帆使用模型在线微调训练功能,快速生产行业场景定制模型服务,满足用户特定需求。

  • 场景一:对话沟通

匹配场景:智能营销、智能客服、情感沟通等需要沟通对话的场景。

在实际生活中,针对用户需求提供快速应答,精准匹配用户需求,完成营销商拓、及时响应、正向心理辅导等内容,提升客户体验。

具体案例:针对用户需求,输出结果。例如,用户需要平台帮忙推荐一下四大名著,如下图所示:

  • 场景二:内容创作

匹配场景:剧本、故事、诗歌等文本创作场景。

根据用户的需求,生成精准匹配的创作文本,为用户提供视频编排的剧本来源;润色成型的故事、诗歌等文本内容,给用户创造提升文本能力的文化环境。

具体案例:用户下发自定义指令,创作成型的文本内容。例如,用户需要平台按要求写一首藏头诗,如下图所示:

  • 场景三:分析控制

匹配场景:所谓分析控制是包含代码生成、数据报表、内容分析等深度学习的文本场景。

根据用户的需求快速生成可执行的代码或者根据用户的需求,平台结合自身已具备的多种数据,生成匹配度更高的应答内容。

具体案例:用户临时遇到需处理的问题,平台生成解决方案。例如,开发工程师利用平台生成具体代码,完成代码的优化,如下图所示:

  • 更多场景

    • 政务服务:多轮智能交互,带来有温度的民生服务。
    • 金融服务:能力媲专业人士,辅助科学金融决策。
    • 旅行服务:一站式行程规划预定,每次都是定制游。
    • 数字人主播:自动生成带货脚本,数字人主播一键开播。
    • 企业办公 - PPT 制作:告别反复格式调节,分钟级制作专业 PPT
    • 企业办公 - 石墨文档:轻松完成多种类型写作,释放无限创造力。

视频链接(PPT 制作、数字人主播一键开播等数十种应用场景惊艳到我了):https://www.zhihu.com/zvideo/1665822423881326592

2.文心千帆优势

  • 基础强大、知识丰富
    文心千帆平台基于百度智能云,采用飞桨深度学习框架作为底层支撑,并内置文心大模型技术。用户通过少量数据调整,可轻松获得高精度和高性能的大模型。
  • 流程完善、发布便捷
    提供一站式服务,涵盖数据集管理、模型训练、服务发布与监管。通过可视化界面实现模型全生命周期管理,简化从数据到服务的大模型实施过程,易于上手与理解。
  • 运行稳定、共建生态
    文心千帆具备完整技术栈、长期稳定的模型开发引擎以及卓越性能。平台低技术门槛,适合各行各业接入,助力完成行业大模型的开发建设。
  • 安全可靠、一键启用
    文心千帆提供文心一言企业级服务,结合百度智能云安全控制机制及文心底层内容安全功能,对推理内容进行审核与敏感词过滤,确保安全可信。

3.快文心千帆大模型平台使用指南

  • 前提条件:要使用百度文心千帆大模型平台,首先需要注册成为百度智能云用户。首先让用几分钟来注册百度智能云账号(如您已经是开发者,可直接登录使用)。
  • 流程说明:文心千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的 AI 能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程 AI 开发门槛。
  • 实现步骤:在您完成注册后,可以登录到文心千帆大模型操作台,只要以下 6 个步骤即可快速完成大模型定制及测试效果的全过程。

[数据导入] -> [数据标注] -> [训练配置] -> [模型纳管] -> [发布服务] -> [在线测试]

3.1数据导入

  1. 需要您在左侧功能栏选择 “数据服务> 数据集管理”,进入数据总览界面,选择创建数据集。

  1. 进入 “创建数据集” 界面,填写数据集名称后,标注类型选择文本对话 - 非排序类型,“创建并导入”。

  1. 在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。

3.2 数据标注

当光标移动至回答框,会有 “自动生成” 按钮,回答支持调用平台的 LLM 模型为问题生成对应回答,可在左上角切换模型。

  • 您可以选择自动生成回答或手动生成回答,回答生成后 “保存标注” 即可。
  • 标注好的文本数据,将会在 “有标注信息” 页签下展示。

3.3 训练配置

  1. 需要您在左侧功能栏中选择 “大模型训练> 大模型调优” 中创建调优任务,进入模型准备界面,按实际情况进行模型选择、模型名称、所属行业、应用场景和业务描述的选择或填写。

  1. 点击 “创建并训练”,继续完善调优任务,完善训练配置和参数调整(ERNIE-Bot-turbo 为例)。

  1. 选择 [3.1] 中创建的数据集进行导入。

  1. 以上步骤都完成后,点击 “确定” 按钮,即可进入自定义模型的训练,当任务详情中的模型运行显示“运行完成”,则表示模型训练成功。

3.4 模型纳管

选择 [3.3] 运行中的 “发布”,填写新模型发布相关内容,将模型纳入模型管理模块。

3.5 发布服务

  1. 需要您在左侧功能栏中选择 “预测服务> 在线服务”,选择“发布新服务” 按钮,或者直接在 [3.4] 模型详情中的版本列表页,选择指定模型 “部署”。

  1. 按照实际需要,进行服务配置和资源配置。

  1. 发布成功后,“预测服务> 在线服务” 中即可列表展示服务内容。

**发布公有云服务,将训练完成的模型部署在百度云服务器,通过 API 接口调用模型。

3.6 在线测试

在 “预测服务> 在线测试” 中,选择自训练模型和参数配置,进行在线测试。

如果需进行 “应用创建、调用服务和查看用量”,可移步至控制台

4. SFT(有监督微调) 概述

4.1SFT简介

监督微调(SFT)是指采用预先训练好的神经网络模型,并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。在千帆平台上已经预置了 ERNIE-Bot 系列大模型和 BLOOM 系列大模型。

  • SFT 在大语言模型中的应用有以下重要原因:

    • 任务特定性能提升:预训练语言模型通过大规模的无监督训练学习了语言的统计模式和语义表示。然而,它在特定任务上的性能可能不如在大规模无监督数据上表现出的性能。通过在任务特定的有标签数据上进行微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。
    • 领域适应性:预训练语言模型可能在不同领域的数据上表现不一致。通过在特定领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊术语、结构和语义,提高在该领域任务上的效果。
    • 数据稀缺性:某些任务可能受制于数据的稀缺性,很难获得大规模的标签数据。监督微调可以通过使用有限的标签数据来训练模型,从而在数据有限的情况下取得较好的性能。
    • 防止过拟合:在监督微调过程中,通过使用有标签数据进行有监督训练,可以减少模型在特定任务上的过拟合风险。这是因为监督微调过程中的有标签数据可以提供更具体的任务信号,有助于约束模型的学习,避免过多地拟合预训练过程中的无监督信号。

4.2 LLM 大语言模型SFT数据准备

为每个示例准备文本输入和标签,以问答形式呈现,如下所示:

  • 问题: 维珍澳大利亚何时开始运营?背景: 维珍澳大利亚,是维珍澳大利亚航空有限公司的交易名称,是一家总部设在澳大利亚的航空公司。它是使用维珍品牌的最大机队规模的航空公司。它于 2000 年 8 月 31 日作为维珍蓝航空公司开始运营,在一条航线上有两架飞机。在 2001 年 9 月安捷澳大利亚公司倒闭后,它突然发现自己成为澳大利亚国内市场的一家主要航空公司。此后,该航空公司发展到直接服务于澳大利亚的 32 个城市,从布里斯班到墨尔本和悉尼的枢纽。
  • 回应: 维珍澳大利亚于 2000 年 8 月 31 日以维珍蓝的名义开始提供服务,在一条航线上使用两架飞机。

问答格式可以处理成多种文件格式, 例如 JSONL, Excel File, CSV; 核心是要保持两个独立的字段, 即问题和答案。
可以从公开网络下载指令数据模板, 并尝试替换内容: https://huggingface.co/datasets/BAAI/COIG

4.3 Prompt 优化

  • prompt 优化主要在训练阶段,用于增强指令的多样性,让模型更好的理解指令

    • 预测阶段的 prompt 优化主要用于无法进行 finetune 的场景,例如 chatgpt/yiyan.baidu.com 等。
    • 对于特定下游任务,预测阶段建议与训练阶段保持一致或者接近的 prompt,可以暂时忽略预测阶段的 prompt 优化。
  • 适当构建 few shotCOT(Chain of Thought) 数据加入训练,可以有助于模型的指令理解以及多轮对话能力。

4.4 数据规模、数据多样性

在 SFT 上数据规模的重要性低于数据质量, 通常 1 万条左右的精标数据即可发挥良好的效果。
在扩充数据规模时需要注意数据多样性,多样性的数据可以提高模型性能
多样性除了从原始数据中获取,也可以通过 prompt_template 方式构建,对 prompt 指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。
在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显著增加。

4.5 数据质量

挑选质量较高的数据,可以有效提高模型的性能。

数据质量用户需尽量自己把控,避免出现一些错误,或者无意义的内容。虽然平台也可以提供数据质量筛选的能力,但不可避免出现错筛的情况。
数据质量可以通过 ppl、reward model,文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

选择 SFT 的超参数[]

  • EPOCH 影响比 LR 大,可以根据数据规模适当调整 EPOCH 大小,例如小数据量可以适当增大 epoch,让模型充分收敛。

    • 例如:EPOCH:100 条数据时, Epoch 为 15,1000 条数据时, Epoch 为 10,10000 条数据时, Epoch 为 2
    • 过高的 epoch 可能会带来通用 NLP 能力的遗忘,这里需要您根据实际需求核定,若您只需要下游能力提升,则通用 NLP 能力的略微下降影响不大。若您非常在乎通用 NLP 能力,平台侧也提供过来种子数据来尽可能保证通用 NLP 能力不降低太多。
  • 适当增加 global batch_size :如增加 accumulate step 32 64,当分布式节点增多时可以进一步增加 batch_size,提高吞吐。
  • 学习率 (LR, learning Rate): 对于 ptuing/lora 等 peft 训练方式,同时可以适当增大 LR。

5.总结

本文主要目的是布道:文心千帆大模型平台(一站式企业级大模型平台,提供先进的生成式AI生产及应用全流程开发工具链),希望国产化大模型越来越好。更多内容请参考官网文心千帆大模型平台

  • 强大的技术能力:文心千帆大模型平台采用了最先进的人工智能技术,具有强大的自然语言处理和机器学习能力,能够为用户提供高质量的文本生成和语义理解服务。
  • 丰富的模型库:文心千帆大模型平台拥有丰富的模型库,涵盖了多种语言和领域,能够满足不同用户的需求。
  • 良好的用户体验:文心千帆大模型平台的用户界面简洁明了,操作简单方便,用户可以快速上手。此外,平台还提供了丰富的文档和教程,帮助用户更好地了解和使用平台。
  • 良好的安全性:文心千帆大模型平台采用了严格的安全措施,保障了用户数据的安全性,让用户可以放心使用平台。
  • 参考文献:

文心千帆大模型平台

更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。

推荐阅读
NLP
关注数
42
内容数
148
NLP任务项目落地教学
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息