工业大数据分析算法实战-day21

打印 上一主题 下一主题

主题 1010|帖子 1010|积分 3030

day21

本日是第21天,是末了一天,昨日讲解了行业知识沉淀的方法,本日阐述第10章节内容,重要是针对数据分析软件工程方面
数据分析项目失败的缘故因由



  • 分析的课题不到位,包括提出了一个错误的题目、一个没有价值的题目,大概设置了不公道的盼望
  • 构造能力不足和分工失配,比方:业务分析师没抓住真实业务需求并分解到合适的颗粒度、与业务部分沟通不到位、真正的专家缺乏话语权
  • 数据分析项目计划不公道,应用软件是逻辑驱动,有相对明白的需求,但是呆板学习重要是在探索上,需要大量尝试性的试验,再加上呆板学习超参众多,模子、数据、代码耦合,要比应用软件复杂多
  • 数据分析的工作质量不高,造成数据质量不到位,造成模子不可信,对业务场景考虑不周,造成模子太敏感,这样的模子不具备进入生产的根本要求
  • 项目服从太低,包括开辟服从、协作服从、更新迭代服从、异常修正服从、业务知识和模子逻辑的传承性低,结果的可重现性太差
传统的数据分析模式

传统数据分析如下图所示

在项目团队了一般会有如下设置:数据科学家、业务负责人、领域专家、数据工程师、软件工程师、运维监控人员等几类脚色,实则还可以细分,好比数据科学家可以分为:建模专家、呆板学习算法工程师,另外模式研究模式也会有很大转换,有手工实行和自动化模式对比:

随着团队规模和办理方案的增长,重复的步骤的数据也随之增长,通常会将其构建成DAG的自动启动和监控使命,为此工业界针对此提出MLOps的思想
生产情况下的呆板学习模子

生产情况下的呆板学习应用范式



  • 练习模式

    • 不定期:人工决定更新时间
    • 定期:定期重新练习并自动更新
    • 实时/在线练习:在线练习,通常模子简单可控

  • 猜测模式的差别

    • 定期猜测:模子按照固定周期运行,比方设备健康度管理模子的运行频度一般周大概月
    • 实时/在线猜测:模子运行由流变乱或外部变乱触发,执行周期频繁且不确定

  • 实时/在线猜测的4类实现模式

    • 内嵌到数据库/平台:很多数据库集成了Python、R,有些也支持PMML等公开标准模子的运行
    • 内嵌到应用:集成到桌面、web应用或移动APP,作为应用的一个软件模块
    • 订阅模式:输入/结果数据/变乱都是通过消息队列传递
    • Webservice:分析模子包装成API服务,模子输入数据:1、分析模子服务自己获取;2、分析模子服务从哀求体剖析输入数据

模子格式

业界提出了很多开辟的呆板学习模子标准,常见3种格式为:PMML、PFA、ONNX,现在PMML和ONNX是使用较为广泛的两种格式


  • PMML:猜测模子标记语言,是一套与平台和情况无关的模子表示语言,由数据挖掘构造开辟和维护,是一套基于XML的标准
  • ONNX:开放神经网络交换,是一套表示深度神经网络模子的开放格式,由微软和FaceBook于2017年提出,通过ONNX-ML也可支持非神经网络的呆板学习模子
MLOps

呆板学习模子包含:数据、模子、代码三部分构成,MLOps也是从这三方面入手:


  • 数据工程:包括数据接入、探索与质量检查、数据洗濯、数据标记、数据集切分等操纵
  • 呆板学习模子工程:包括特征工程、模子练习与调优、模子评估与测试、模子打包、模子运行、性能监控、运行日记等
  • 代码工程:包括将呆板学习模子集成到系统的代码的开放、集成、测试与发布
MLOps重要技术手段对数据、模子、代码的作用如下图表格:

综合上面,Henrik Skogstrom提出了9大组件框架,如下图所示,包含了5个引擎和4个版本管理组件

工业数据分析MLOps的特点



  • 研发情况和生产运行情况在工业上每每是两套不同的情况,研发情况重要为大数据平台为主,生产情况考虑安全隔离、数据传输要求,多半需要半自动化的摆设方式
  • 模子摆设好后,工业数据分析模子的更新频度较低,这对模子的自动化摆设、自动化更新的要求降低很多
  • 工业对模子的可靠性的要求很高,在模子研发的时候,需要大量历史数据举行测试运行,若存在异常,盼望能够以数据分片的颗粒度提供样天职段,方便本地调试重现,对迭代式情况要求更高
  • 在模子摆设上,工业数据分析依赖的包通常比较多,甚至依赖于一些专业的软件,在模子运行情况、算法包上一致性要求很高,将模子从开放到生产情况具有挑战性

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

罪恶克星

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表