DataOps真能“降本增效”?

打印 上一主题 下一主题

主题 640|帖子 640|积分 1920

在各行各业中,越来越多的公司开始重视网络数据,并寻找创新方法来得到真实可行的商业成果,并且愿意投入大量时间和款项来实现这一目的。

据IDC称,数据和分析软件及云服务市场规模在 2021 年达到了 900 亿美元,随着企业继续对人工智能和机器学习 (AI/ML) 和现代数据计划进行投资,预计到 2026 年将增长一倍以上。
然而,尽管投入了大量资金,数据项目往往收效甚微。麦肯锡最近对高级主要分析项目进行的一项调查发现,公司 80% 的时间都花在准备数据等重复性任务上,而这些任务产生的增值作用有限。此外,他们还发现,只有 10% 的公司认为他们已经控制住了这个标题。
项目为何失败?

尽管增加了投资和关注,数据项目的失败率为什么仍旧如此之高?
许多变量都会影响项目的成功,经常被提及的因素包括项目复杂性和对应的开发人才技能水平。企业也意识到,许多数据项目都失败了,是因为他们难以在生产中大规模实施数据计划。
这导致了 DataOps 的出现,成为克服大数据项目中常见挑战的新框架。DataOps 是敏捷工程和 DevOps 最佳实践在数据管理领域的应用,能帮助企业快速将新见解转化为完全可操纵的生产交付成果,从而从数据中开释出商业价值。
数据调理的挑战

大多数数据工作流都非常复杂,必要跨多个不同的应用程序、数据源和基础架构技能运行,并且这些技能必要协同工作。虽然目的是在生产中实现这些流程的自动化,但现真相况是,如果没有强盛的工作流调理平台,在企业规模上交付这些项目可能会非常昂贵,而且通常必要耗费大量时间进行手动工作。
2023年1月份,白鲸开源正式发布了 Apache DolphinScheduler商业版Whalescheduler。相比于开源版本,商业版拥有更为专业的服务支持,感爱好的小伙伴可以看下这篇文章进一步了解:什么是数据调理平台 WhaleScheduler
数据工作流调理项目有四个关键阶段:

  • 数据引入:这涉及从传统泉源(如企业资源规划 (ERP) 和客户资源管理 (CRM) 解决方案、金融体系等)以及现代泉源(如装备、物联网 (IoT) 传感器和社交媒体)网络数据。
  • 数据存储:存储数据的方式和地点取决于持久性、数据集的相对价值、分析模子的刷新率以及数据移动到处理阶段的速率。
  • 数据处理:处理阶段也面对许多挑战,包括必要多少处理能力?是恒定的照旧可变的?是定期的、事件驱动的照旧临时的?怎样将成本降到最低?
  • 洞察传递:这必要将数据输出移动到分析体系。这一层同样复杂,有越来越多的工具代表数据管道中的末了一英里。
随着新数据和云技能的频繁推出,公司不断重新评估其技能堆栈。这种不断发展的创新带来了压力和客户流失,这可能是一个挑战,因为公司必要轻松采用新技能并将其扩展到生产中。
最终,如果新的数据分析服务没有大规模投入生产,公司就无法得到可操纵的见解或实现价值。
实现规模生产

在生产中成功大规模运行业务关键型工作流程并非偶尔。正确的工作流程调理平台可以帮助您简化数据管道并得到所需的可行见解。
考虑到这一点,以下是您在工作流调理平台中必要寻找的八个基本功能

  • 支持异构工作流:各公司正在迅速转向云,在可预见的将来,工作流将跨越高度复杂的混淆环境。对于许多公司而言,这将包括支持跨数据中央和多个私有云和/或公共云的大型机和分布式体系。Apache DolphinScheduler 是一个强盛的开源分布式工作流调理平台,能够处理多种应用程序和基础设施的多样性,提供一致的自动化计谋。
  • SLA 管理:业务工作流(从预测风险的 ML 模子到财政结算和付款结算)都有完成 SLA,这些 SLA 有时受羁系机构制定的准则的约束。您的调理平台必须能够理解并关照您复杂工作流中的任务失败和延迟,并且必要能够将标题映射到更广泛的业务影响。
  • 错误处理和关照:在生产中运行时,纵然是设计得最好的工作流程也会出现故障和延迟,而海豚调理恰恰有非常完善的告警机制,并支持一些主流的平台
  • 自我修复和调停:相应业务工作流中的作业故障时,平台会采取改正措施,例如重新启动作业、删除文件或刷新缓存或临时表。调理平台应允许自动化工程师配置此类操纵,以便在下次发生相同标题时自动执行。
  • 端到端可视性:工作流跨混淆技能栈执行互连的业务流程。调理平台应该能够清晰地表现工作流的沿袭。这对于帮助工程师了解应用程序与其支持的业务流程之间的关系至关紧张。这对于变更管理也很紧张。在进行变更时,了解流程上游和下游发生的环境至关紧张。
  • 自助式用户体验:工作流调理是一项团队活动,涉及许多长处干系者,例如数据团队、开发人员、运营、业务流程所有者等。每个团队对于怎样与调理工具交互都有不同的用例和偏好。
  • 生产尺度:在生产中运行工作流必要遵守尺度,这意味着使用正确的命名约定、错误处理模式等。您的调理平台应该有一个机制,提供一种非常简单的方法来界说这些尺度,并在用户构建工作流时引导遵循适当的尺度。
  • 支持 DevOps 实践:随着公司采用 DevOps 实践,例如持续集成和持续摆设 (CI/CD) 管道、工作流开发、修改甚至工作流基础设施摆设,您的调理平台应该能够适应现代发布实践。
对数据的需求正在上升,并且没有削弱的迹象,这意味着拥有存储、处理和操纵数据的能力对于任何企业的成功仍旧至关紧张。DataOps 实践与强盛的调理功能相结合,可以帮助企业调理数据管道、简化数据交付流程并改善业务成果。
WhaleStudio是白鲸开源根据全球领先的DataOps理念打造的新一代全栈数据集成调理产品,具有分布式、云原生并带有强盛可视化界面的特点,将全球领先的调理开发组件Apache DolphinScheduler与数据集成组件Apache SeaTunnel集成在一起提供给全球用户领先的完备解决方案,支持170+数据源集成并全面支持信创环境,目前已服务于6000+企业。
本文泉源于:https://www.datanami.com/2024/05/15/unlock-your-data-initiatives-with-dataops/ 如有侵权,请联系删除
本文由 白鲸开源 提供发布支持!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

天津储鑫盛钢材现货供应商

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表