IT评测·应用市场-qidao123.com
标题:
工业大数据分析算法实战-day21
[打印本页]
作者:
罪恶克星
时间:
2025-1-2 02:51
标题:
工业大数据分析算法实战-day21
day21
本日是第21天,是末了一天,昨日讲解了行业知识沉淀的方法,本日阐述第10章节内容,重要是针对数据分析软件工程方面
数据分析项目失败的缘故因由
分析的课题不到位,包括提出了一个错误的题目、一个没有价值的题目,大概设置了不公道的盼望
构造能力不足和分工失配,比方:业务分析师没抓住真实业务需求并分解到合适的颗粒度、与业务部分沟通不到位、真正的专家缺乏话语权
数据分析项目计划不公道,应用软件是逻辑驱动,有相对明白的需求,但是呆板学习重要是在探索上,需要大量尝试性的试验,再加上呆板学习超参众多,模子、数据、代码耦合,要比应用软件复杂多
数据分析的工作质量不高,造成数据质量不到位,造成模子不可信,对业务场景考虑不周,造成模子太敏感,这样的模子不具备进入生产的根本要求
项目服从太低,包括开辟服从、协作服从、更新迭代服从、异常修正服从、业务知识和模子逻辑的传承性低,结果的可重现性太差
传统的数据分析模式
传统数据分析如下图所示
在项目团队了一般会有如下设置:数据科学家、业务负责人、领域专家、数据工程师、软件工程师、运维监控人员等几类脚色,实则还可以细分,好比数据科学家可以分为:建模专家、呆板学习算法工程师,另外模式研究模式也会有很大转换,有手工实行和自动化模式对比:
随着团队规模和办理方案的增长,重复的步骤的数据也随之增长,通常会将其构建成DAG的自动启动和监控使命,为此工业界针对此提出MLOps的思想
生产情况下的呆板学习模子
生产情况下的呆板学习应用范式
练习模式
不定期:人工决定更新时间
定期:定期重新练习并自动更新
实时/在线练习:在线练习,通常模子简单可控
猜测模式的差别
定期猜测:模子按照固定周期运行,比方设备健康度管理模子的运行频度一般周大概月
实时/在线猜测:模子运行由流变乱或外部变乱触发,执行周期频繁且不确定
实时/在线猜测的4类实现模式
内嵌到数据库/平台:很多数据库集成了Python、R,有些也支持PMML等公开标准模子的运行
内嵌到应用:集成到桌面、web应用或移动APP,作为应用的一个软件模块
订阅模式:输入/结果数据/变乱都是通过消息队列传递
Webservice:分析模子包装成API服务,模子输入数据:1、分析模子服务自己获取;2、分析模子服务从哀求体剖析输入数据
模子格式
业界提出了很多开辟的呆板学习模子标准,常见3种格式为:PMML、PFA、ONNX,现在PMML和ONNX是使用较为广泛的两种格式
PMML:猜测模子标记语言,是一套与平台和情况无关的模子表示语言,由数据挖掘构造开辟和维护,是一套基于XML的标准
ONNX:开放神经网络交换,是一套表示深度神经网络模子的开放格式,由微软和FaceBook于2017年提出,通过ONNX-ML也可支持非神经网络的呆板学习模子
MLOps
呆板学习模子包含:数据、模子、代码三部分构成,MLOps也是从这三方面入手:
数据工程:包括数据接入、探索与质量检查、数据洗濯、数据标记、数据集切分等操纵
呆板学习模子工程:包括特征工程、模子练习与调优、模子评估与测试、模子打包、模子运行、性能监控、运行日记等
代码工程:包括将呆板学习模子集成到系统的代码的开放、集成、测试与发布
MLOps重要技术手段对数据、模子、代码的作用如下图表格:
综合上面,Henrik Skogstrom提出了9大组件框架,如下图所示,包含了5个引擎和4个版本管理组件
工业数据分析MLOps的特点
研发情况和生产运行情况在工业上每每是两套不同的情况,研发情况重要为大数据平台为主,生产情况考虑安全隔离、数据传输要求,多半需要半自动化的摆设方式
模子摆设好后,工业数据分析模子的更新频度较低,这对模子的自动化摆设、自动化更新的要求降低很多
工业对模子的可靠性的要求很高,在模子研发的时候,需要大量历史数据举行测试运行,若存在异常,盼望能够以数据分片的颗粒度提供样天职段,方便本地调试重现,对迭代式情况要求更高
在模子摆设上,工业数据分析依赖的包通常比较多,甚至依赖于一些专业的软件,在模子运行情况、算法包上一致性要求很高,将模子从开放到生产情况具有挑战性
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4