全功能AI开发平台是一个综合性的平台,旨在支持各种人工智能(AI)应用的开发、部署和管理。这些平台通常提供一系列工具、库和服务,以帮助开发者、数据科学家和工程师创建和操作各种类型的AI应用。以下是全功能AI开发平台通常提供的一些功能和特性:
- 数据管理:提供数据存储、数据集成、数据清洗和数据标注工具,以支持AI模型的训练和评估。
- 模型开发:包括模型训练、调优和验证工具,以及深度学习框架集成,使开发者能够创建自定义AI模型。
- 自动化ML(AutoML):提供自动化工具,可以自动选择和调整模型参数,以简化模型开发流程。
- 部署和托管:支持AI模型的部署到云端或边缘设备,并提供自动扩展和管理模型的能力。
- 可解释性和监控:提供模型解释性工具,以及实时性能监控和错误检测,以确保AI应用的可靠性和可解释性。
- 集成和API:支持将AI功能集成到现有应用程序中,以及提供API,以便其他应用程序可以调用AI模型。
- 安全性和隐私:提供安全性和隐私保护功能,以确保AI应用的数据和模型的安全性。
- 可视化工具:提供可视化界面,以简化模型训练和部署的管理和监控。
下面以百度BML全功能AI开发平台为例进行介绍(一站式AI开发流程如下),且底层框架内置文心大模型基座:
任务抽象:
- 项目有多少个任务场景
- 每个任务场景需要开发多少个模型
- 部署场景的约束是什么
任务流程介绍:
- 采集/标注数据
- 选择预训练模型
- 数据增强策略
- 超参数调整
- 模型训练以及评估
- 分析报告
项目背景介绍:
在我们的生活和工作中,很多事情都可以转化为一个分类问题来解决,比如“上班坐公交还是坐地铁”、“吃米饭还是吃面条”等等可以转化为二分类问题。自然语言处理领域也是这样,大量的任务可以用文本分类的方式来解决,比如垃圾文本识别、涉黄涉暴文本识别、意图识别、文本匹配、命名实体识别等,有着极其广泛的应用场景:
- 投诉信息分类:训练客服投诉信息的自动分类,将每个用户投诉的内容进行分类管理,节省大量客服人力。
- 媒体文章分类:训练网络媒体文章的自动分类,进而实现各类文章的自动分类。
- 文本审核:定制训练文本审核的模型,如训练文本中是否含有违规/偏激性质的描述。
中文新闻文本标题分类任务简介:
- 新闻分类是文本分类中常见的应用场景。在传统分类模式下,往往是通过人工对新闻内容进行核对,从 而将新闻划分到合适的类别中。这种方式会消耗大量的人力资源,并且效率不高。采用深度学习的方法可以取得较高的分类精度,是新闻推荐等场景下的基础任务。
项目数据:
- 项目任务需要什么样的数据
- 如何制作高质量的数据集(图片数据:是否存在高度相似、模糊的图片,进行数据的清洗)
- 数据量不够怎么办(每一类的图片数量是否大于80张?是否需要增加图片以平衡类别数量?进行上采样?)
高质量数据:
- 数据标注正确
- 尽量提升数据的类别,提升模型的泛化能力
- 保证训练数据尽量与业务数据接近,各个类别平衡
- 数据划分正确,测试集验证集不会泄露。
- 以结果为导向看数据:看哪个类别的数据模型不太擅长识别,即分析badcase,采用数据增强增加数据数量。
数据增强(以图片的数据增强为例):
- 对比度
- 色平衡
- 亮度
- 锐化
- 目标框裁剪
- 标注框旋转
- 标注框翻转
- 水平裁剪
- 智能标注
- 多人标注
- 数据质检报告
- 支持与数据采集设备直连
- BML自动化数据清洗:去近似、去模糊、裁剪、旋转、镜像。
- 自动数据增强。开放超过40种算子,灵活配置
本文采用中文新闻文本标题分类数据集进行示例:数据
- 点击数据集管理,并创建数据集。
- 在创建数据集界面,设置好相关信息并点击完成
建模调参:
- 选择什么样的模型
- 有没有精度更高的模型
- 如何调优,进一步提升性能
- 要不要购买服务器?
- 提供预置模型调参、NoteBook建模、自定义作业建模等三种开发方式,满足不同需求的开发者。
- 进一步测试模型可以点击发布按钮进行模型的发布, 发布模型之后可以在发布模型这一列看到已经发布的模型,这时候点击评估报告可以看到模型校验按钮,可以进行模型的校验,输入文本进行校验。
部署环境:
云端:公有云部署,即将模型部署为在线服务,从而以REST API的方式提供推理预测能力。且公有云部署是最快捷的模型部署方式,不同类型的模型在执行公有云部署时的流程基本一致,当部署后在线API的接口与模型有关。
- 易于部署迭代
- 可使用大模型,快速上线
- 高延迟
- 成本线性升高
边缘端:
- 算力限制
- 前期开发部署成本高
- 低延迟
- 成本可控
在线服务说明:在线服务当前仅允许一个模型版本处于上线状态,若上线时有其他模型版本在线,则会将当前版本下线并且上线新的版本。服务状态以及其含义说明如下所示:
- 之后使用ak、sk以及请求url来进行接口的调用