Apache Spark 与 AWS DynamoDB 的完美结合——Spark-Dynamodb开源项目推荐 ...

打印 上一主题 下一主题

主题 827|帖子 827|积分 2483

Apache Spark 与 AWS DynamoDB 的完美结合——Spark-Dynamodb开源项目推荐

    spark-dynamodb Plug-and-play implementation of an Apache Spark custom data source for AWS DynamoDB.  
项目地址: https://gitcode.com/gh_mirrors/sp/spark-dynamodb   
Apache Spark 是一款强大的分布式数据处置惩罚工具,而 AWS DynamoDB 则是亚马逊提供的快速、可扩展的 NoSQL 数据库服务。两者的结合为大数据处置惩罚和实时分析带来了无穷可能。本文将为您先容一个开源项目——Spark-Dynamodb,该项目以Scala语言为主,实现了Apache Spark与DynamoDB的无缝对接。
项目基础先容和紧张编程语言

Spark-Dynamodb 是由 AudienceProject 开发的一个开源项目,旨在为 Apache Spark 提供一个定制的数据源,使得用户可以方便地从 AWS DynamoDB 读取和写入数据。该项目紧张使用 Scala 语言举行开发,同时也涉及到了 Java 语言的代码。
项目焦点功能

Spark-Dynamodb 的焦点功能紧张包罗:

  • 分布式并行扫描:通过懒加载评估,实现高效的分布式扫描。
  • 吞吐量控制:通过限定目标表的读写比例,实现对 DynamoDB 表的吞吐量控制。
  • Schema 发现:支持动态推断和静态分析,满足不同场景下的需求。
  • 列和过滤下推:通过将过滤条件推送到 DynamoDB,减少不必要的数据传输。
  • 全局二级索引支持:支持使用全局二级索引举行数据查询。
  • 写入支持:支持将数据写入到 DynamoDB。
项目最近更新的功能

最近更新的功能紧张包罗:

  • 增加了 inferSchema=false 选项,用于在写入具有大量列的表时关闭主动推断 schema 的功能。
  • 发布了版本 1.1.0,支持 Spark 3.0.0 和 Scala 2.12,未来版本将不再兼容 Scala 2.11 和 Spark 2.x。
  • 增加了对通过自定义 STS 端点假定 AWS 脚色的支持。
  • 增加了删除记录的选项。
  • 修复了一些已知的 issues。
通过这些更新,Spark-Dynamodb 进一步提拔了与 Apache Spark 和 AWS DynamoDB 的兼容性,为用户带来了更加便捷的使用体验。如果您正在探求一个可以或许高效处置惩罚 DynamoDB 数据的 Spark 数据源,那么 Spark-Dynamodb 将是一个不错的选择。
    spark-dynamodb Plug-and-play implementation of an Apache Spark custom data source for AWS DynamoDB.  
项目地址: https://gitcode.com/gh_mirrors/sp/spark-dynamodb   

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南七星之家

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表