只需一步,快速开始
主题 1866|帖子 1866|积分 5598
3.2.3.1.1. 管道从源数据存储中提取数据并将其转换为特征
3.2.3.1.2. 特征数据样本的数量也在不断增长,特别是对于深度学习模型而言,在大规模生产中管理大型数据集需要分布式编程来优化扩展性和性能
3.2.3.1.3. 构建和管理数据管道通常是模型创建中最耗时的部分之一
3.2.3.2.1. 有不同的时效要求,模型训练通常是面向批处理的,而模型推理是流式的,要求近实时的延迟
3.2.3.2.2. 训练和推理管道计算中的差异是导致模型准确率问题的关键缘故原由,也是在大规模生产中进行调试的噩梦
4.2.2.1.1. 特征可以与单个数据属性关联,也可以是复合聚合而成
4.2.2.1.2. 相对于标称时间,特征可以是相对静态的,而不是连续变化的
4.2.2.2.1. 在处理大规模数据集的用户中,Spark是数据整理的首选
4.2.2.2.2. 处理小型数据集的用户更喜欢使用NumPy和pandas等框架
4.2.2.3.1. 存储系统可以是关系型数据库、NoSQL数据存储、流计算平台以及文件和对象存储
4.3.3.6.1. 计算特征值的TP99延时值
5.1.3.1.1. 传统的批处理作为ETL作业,每隔几个小时运行一次或每天运行一次,以计算历史特征值
5.1.3.1.2. 该管道经过优化,可以在大时间窗口上运行
5.1.3.2.1. 在实时消息总线上对数据事件进行流式分析,以低延迟计算特征值
5.1.3.2.2. 特征值被回填到批处理管道的大量历史数据中
5.1.3.3.1. 为了确保一致性,数据用户不需要为新特征创建管道,而是使用特定领域的语言(DSL)界说一个特征规范
5.1.3.3.2. 该规范指定了数据源和依赖关系,以及天生特征所需的转换
5.1.3.3.3. 该规范会自动转换为批处理管道和流式管道,这确保了用于训练和推理的管道代码的一致性,并且无须用户参加
5.1.3.3.4. 特征是使用DSL界说的,DSL可以选择、转换和组合在训练和预测时发送给模型的特征
5.1.3.3.5. DSL是作为Scala的一个子集来实现的,Scala是一种纯函数语言,拥有一套完整的常用函数
5.1.3.3.6. 数据用户还可以添加用户实现的自界说函数
5.1.5.2.1. Apache Beam等编程模型正在逐渐将批处理和流式计算融合起来
5.2.4.2.1. 不管是哪种用例,特征都是通过规范名称来标识的
5.2.7.1.1. 存储特征值
5.2.7.1.2. 针对批量存储的常见解决方案有Hive(Uber和Airbnb使用)、S3(Comcast使用)和Google BigQuery(Gojek使用)
5.2.7.1.3. 对于在线数据,通常使用Cassandra等NoSQL存储
5.2.7.2.1. 存储计算特征的代码、特征版本信息、特征分析数据和特征文档
5.2.7.2.2. 特征注册提供自动特征分析、特征依赖跟踪、特征作业跟踪、特征数据预览,以及对特征/特征组/训练数据集元数据的关键字搜索
您需要 登录 才可以下载或查看,没有账号?立即注册
使用道具 举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
怀念夏天