ToB企服应用市场:ToB评测及商务社交产业平台

标题: 云计算与大数据课后题库 [打印本页]

作者: 梦见你的名字 时间: 2024-11-23 20:37
标题: 云计算与大数据课后题库
云计算与大数据课后题库

第一章前言部分

1.下面哪个案例最能说明基于大数据的分析可以或许发挥神奇的预测功能？（C）

A. 芝麻信用评级 B. 卫报新闻令英国从伊拉克撤军

C. 谷歌流感趋势 D. 沃尔玛超市“啤酒与尿不湿”促销

2.我国将“大数据”一词初次写入总理给全国人大提交的《政府工作陈诉》是在哪一年？（B）

A. 2013年 B. 2014年 C. 2015年 D. 2016年

3. 我国每年在何地举办一次中国国际大数据产业展览会？（A）

A. 贵阳 B. 北京 C. 上海 D. 西安

4. 2016年，我国首批开设数据科学与大数据技能专业的高校有几所？（C）

A. 1 B. 2 C. 3 D.4

5. Google主要是基于哪些方法实现了对流感趋势的预测？（ABD）

A. 谷歌设计了关于流感的关键词

B. 网络用户在网络中搜刮流感关键词的统计数据和用户所在的地区

C. 从各地卫生官员处网络流感人数的统计数据

D. 认为搜刮流感信息的人数与实际患病人数之间存在密切关联

6. 基于位置的服务（Location Based Services，LBS），是利用各类型的定位技能来获取定位装备当前的所在位置，通过移动互联网向定位装备提供信息资源和根本服务。下列哪些应用与LBS有关? (ABCD)

A. 在线舆图预测都会道路交通流量

B. 旅游景点的聪明导游，自动为游客提供讲解

C. 向用户推荐所在位置附近的餐饮店家

D. 大型商场通过手机向顾客提供的室内导购服务

1.1什么是大数据

1．1980年，著名的未来学家阿尔文托夫勒在其著作中将（D）称为“第三次浪潮的华彩乐章”

A. 人工智能 B. 互联网 C. 物联网 D. 大数据

2. 2001年梅塔集团在其发布的研究陈诉中指出数据增长的挑战和机遇有三个方向，分别是数据容量、处理速度和（C）

A. 数据管理 B. 数据传输 C. 数据种类 D. 数据存储

3. 关于大数据的代价，下列论断中正确的是（B）

A. 大数据的体量大，代价密度也高

B. 大数据的体量大，但代价密度低

C. 大数据的代价相比于它的体量毫无意义

D. 大数据的代价与它的体量成正比，数据量越大，代价越高

4. 2012年《纽约时报》发文指出，大数据时代已经到临，决策将日益基于（D）而作出，而并非基于履历和直觉。

A. 市场垄断 B. 精准营销 C. 有效管理 D. 数据和分析

5. 2012年，美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》，提出通过网络、处理庞大而复杂的数据资料信息，获得知识和洞见，加速科学、工程范畴的创新步调，强化美国国土安全，转变教育和学习模式，指出了大数据在下列哪些方面的巨大作用？（ABCD）

A. 科学研究 B. 国家安全 C. 教育 D. 工程范畴

6.大数据的“4V”特征中不包括（CD）

A. 速度 B. 数据类型 C. 有效性 D. 易受攻击性

7. 近年来, “天猫双十一”成交额到达100亿的时间越来越短，说明电子商务对大数据处理提出了哪些方面的要求？ (ABC)

A. 处理速度必须非常快

B. 可以或许快速传输海量数据

C. 可以或许快速存储海量数据

D. 可以或许包管买卖业务数据的足够安全

1.2大数据的来源与格式

1. 结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。下列的数据中哪个不是结构化数据。（B）

A. 学生的学籍表 B. 体系日志文件 C. 电商的月销售记录单 D. 车间生产操持表

剖析: 体系日志属于半结构化数据

2. JSON文件是典范的半结构化数据，它输出数据的形式是（D）

A. 有序数对 B. 标记语言 C. 二维表格 D. 键值对

3. 物联网，指的是将各种信息传感装备，如射频识别（RFID）装置、红外感应器、环球定位体系、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。下列的哪种场景不属于典范的物联网应用？（C）

A. 远程聪明医疗 B. ZigBee无线路灯照明节能环保技能

C. 无线移动通讯 D. 智能交通信号灯控制

4. “来自行业分析人士的评论称，128GB SSD过去两个月在中国市场的代价下跌了10%，未来形势依然不够看好。随着成本更低的PLC闪存初露端倪，主控技能的成熟，PLC闪存的量产，未来的PLC闪存SSD的代价将大幅度低落，代价进一步向HDD机械硬盘靠拢”这一报道与下面的哪一个定律预言情况是大抵吻合的。（B）

A. 吉尔德定律 B. 摩尔定律 C. 麦特卡夫定律 D. 维克托预言

5. 反映网络时代规律的麦特卡夫定律主要内容是（D）

A. 计算机的计算功能每18个月翻一番 B. 性能相同的计算机代价将不停降落

C. 网络的带宽每6个月翻一番 D. 网络的代价与用户数量的平方成正比

6. 泛互联网的主要形式包括（ABC）

A. 车联网 B. 移动互联网 C. 物联网

7. 结构化数据的数据以举动单元，一行数据表示一个实体的信息，每一列数据的属性是相同的。比方在产品学生班级名单中，每个学生就是一个实体，它的信息就是一行数据，学号这一列就是一个属性，请结合实际情况，指出学号这个属性必须满意以下哪些性子？（ABC）

A. 长度必须相同 B. 数据类型必须相同

C. 不同砚生的学号必须不同 D. 同一个班级学生的学号必须一连

剖析: 同一个班的学号不肯定非得要一连，这不是必须的。

8. 非结构化数据主要包括以下的哪些形式？（ABCD）

A. 视频 B. 语音 C. 图形图像 D. 文本

第一章第二节：大数据的整体架构与关键技能

1．大数据的处理流程可分为数据收罗、导入与预处理、（B）、分析处理、数据出现五个环节

A. 数据洗濯 B. 数据存储 C. ETL D. 数据

2. 据统计，数据科学家泯灭时间最多的大数据处理环节是（A）

A. 数据洗濯 B. 数据网络 C. 建立训练集 D. 测试算法

3. 数据抽取可分为增量抽取和（B）

A. 全局抽取 B. 全量抽取 C. 整体抽取 D. 部分抽取

4. 南丁格尔在克里米亚战争期间用玫瑰图主要的目的是分析什么问题？(D)

A. 士兵死亡的时间 B. 士兵死亡的地点

C. 士兵死亡的人数 D. 士兵死亡的原因

5. 下列工具中最得当对在线大数据进行并行计算，实时分析的是（C）

A. Pig B. Hadoop MapReduce C. Spark D. HDFS

6. 下列哪些选项可以作为大数据体系的数据源（ABCD）

A. 体系日志 B. 网页访问数据 C. RDBMS D. NoSQL

7. 大数据的技能架构可分为应用层、分析层和（BD）

A. 收罗层 B. 管理层 C. 导入层 D. 根本层

8. 下列问题中属于数据预处理环节要解决的是（ABC）

A. 缺失值处理 B. 重复值处理 C. 数据的转化 D. 数据的分析发掘

第一章第三节：大数据的挑战与未来

1. 2013年6月，前中情局（CIA）职员爱德华·斯诺登将两份棱镜门事件绝密资料交给英国《卫报》和美国《华盛顿邮报》，两家报纸2013年6月6日报道，美国国家安全局(NSA)和联邦观察局(FBI)于2007年启动了一个代号为"棱镜"的秘密监控项目，直接进入美国网际网路公司的中心服务器里发掘数据、网络谍报，包括微软、雅虎、谷歌、苹果等在内的9家国际网络巨头皆到场此中。此次事件说明（A）对大数据的安全使用起到了决定性的作用。

A. 国家和政府 B. 安全技能 C. 法律 D. 行业规则

2. Cambridge Analytica可以或许短时间内大量的获取个人的信息，在流传过程中起重要作用的是（B）

A. 政府资助 B. 交际网络 C. 企业广告 D. 网站推广

3. 有证据表明，Cambridge Analytica利用大量获取的个人的信息，主要目的是（A）

A. 政治操作 B. 行业服务 C. 技能推广 D. 精准营销

4. 近年来，美国政府不遗余力地打压华为，试图限制乃至封杀华为的5G装备和技能活着界范围内的推广，背后的目的自然是深层次的政治原因。这也说明下列的哪个因素对大数据的安全起到重要作用（D）

A. 大数据的隐私保护技能 B. 国家关于大数据安全的政策与法规

C. 大数据的存储安全 D. 大数据的根本办法安全

5.增强大数据的安全与隐私的保护措施主要包括以下哪些方面？(ABCD)

A. 提高用户的隐私保护意识和信息安全素养。

B. 建立健全大数据隐私和安全方面的法律法规。

C. 增强信息化建立的规划和和尺度，引导企业给予个人更多的个人数据控制权。实验数据隐私品级分类

D. 增强数据安全技能的研发与应用

6. 以下哪些应用可能和用户画像有关？(ABD)

A. 个性化推荐 B. 行业与用户陈诉 C. 人脸识别 D. 信贷消费预警

7. 数据治理要解决大数据平台哪些方面的问题? (ABCD)

A. 数据不可知 B. 数据不可控 C. 数据不可取 D.数据不可联

第二章

2.1大数据的收罗

1. 大数据的三大来源是贸易数据、互联网数据和（A）

A. 物联网数据 B. 交际网络 C. 企业内部数据 D.移动通讯数据

2. 物联网获得数据的主要方式不包括（D）

A. RFID B.各类传感器、感应器 C. GPS D.交际网络

3. 阿里巴巴通用计算平台提供的一种快速、完全托管的 PB 级数据仓库解决方案如今名称为（B）

A. RDBMS B. Maxcompute C. MapReduce D. NoSQL

4. Windows 10体系的日志体系可在控制面板中的什么项目中可以看到？(A)

A. 事件查看器 B. 本地安全计谋 C. 组件服务 D. 资源监督器

5. Flume日志体系当节点出现故障时，提供了三种级别的可靠性包管，此中最强的是（C）

A. Best effort B. Store on failure C. end-to-end D.三种一样强

6. Scribe是Facebook公司用C/C++语言开辟的开源日志体系，下列关于它的叙述正确的是（BCD）

A. 集中式网络，分布式处理

B. 当中央存储体系出现问题时，Scribe可以把日志暂存到本地

C. 分布式网络，集中同一处理

D. 各个数据源须通过thrift向scribe传输数据

7. Chukwa中的agents（署理）负责收罗最原始的数据,并发送给 collectors（网络器），collectors 负责网络 agents 收送来的数据,并定时写入集群中。下列关于它的叙述中正确的是（AD）

A. 在每个数据的产生端host,Chukwa 使用一个Agent来收罗它感爱好的数据

B. 每一个Agent都对应一个单独的collectors用于网络Agent收罗的数据

C. Chukwa 是一个秒级的错误监控体系，能做到实时错误监控。

D. Chukwa包罗了一个强大和灵活的工具集

2.2大数据预处理

1.数据预处理包括数据洗濯、数据集成、数据变更和（B）

A. 数据规范化 B. 数据归约 C. 数据离散化 D. 数据压缩

2.在一个学生学籍表中，下列哪个属性属于名义型数据? (C)

A. 学号 B. 年龄 C. 性别 D. 姓名

3.非常值处理主要包括缺失值、重复值、噪声数据和（B）

A. 非常点 B. 离群点 C. 错误点 D. 奇异点

4.下面9个数：3,17,9,18,21,36,41,23,52如果分成三组，每组三个，按照像箱中位数平滑方法，得到的第三组数为：(A)

A. 41,41,41 B. 36,36,36 C. 43,43,43 D. 21,21,21

5.数据集成的难点在于数据的异构性，异构性又主要是因为数据源和（D）的不同造成的.

A. 数据的存储形式 B. 数据的表达形式 C. 数据语义 D. 数据模型

6.如果我们需要在学生的成绩表中根据学生的考试成绩，将其划分为：优秀、良好、及格、不及格四个品级，这个操作属于数据变更中的（A）。

A. 数据泛化 B. 数据规范化 C. 数据聚集 D. 数据尺度化

7.在搜集市场上主要电脑产品的数据时，共网络到2000余件产品品关于CPU型号、主频、焦点/线程数、内存容量、内存类型、硬盘类型、硬盘容量、显示屏尺寸等等，共70余个特征的数据，如今每一个品牌中选择最新上市的3件产品作为代表，选取它们全部的70余个特征的数据，从而使数据的数量大为减少，这在数据预处理中称为（C）

A. 数据压缩 B. 特征归约 C. 样本归约 D. 属性归约

8.数据集成的主要形式有 (ACD)

A. 中介者模式 B. 联邦数据库 C. 分布式数据库 D. 数据仓库

9.缺失值可以用下列哪些数值填充？(ABCD)

A. 均值 B. 中位数 C. 插补 D. 随机选取的样本值

第三章大数据分析概述

1.大数据分析是指用科学分析、发掘和（C）的方法对网络来的大量数据进行分析、研究和概括总结。

A. 预处理 B. 统计分析 C. 展现 D. 呆板学习

2. 大数据分析的根本方法包括预测性方法、数据发掘算法、语义引擎、数据质量和数据管理、（D）等方法

A. 回归分析 B. 分类分析 C. 聚类分析 D. 可视化分析

3.沃尔玛超市关于“啤酒和纸尿裤”的案例，主要采用的是数据发掘中的哪一类算法？（A）

A. 关联规则 B. 聚类分析 C. 分类分析 D. 可视化分析

4. 数据质量管理分为人工比对、（B）、统计分析

A. 数学比对 B. 程序比对 C. 自动比对 D. 抽样比对

5. 呆板学习可分为（ACD）

A. 强化学习 B. 深度学习 C. 有监督学习 D. 无监督学习

6. 通过对客户在某电子商务平台上的消费额度、购买商品的种类、欣赏记录等数据判断一位他是否会购买某种商品，可用下列哪些算法实现（BCD）

A. ARIMA算法 B. 神经网络 C. 决策树分析 D. Logistics回归

7. 分词技能可以用于下列哪些范畴？（ABCD）

A. 自动翻译 B. 情绪分析 C. 语义引擎 D. 论文查重

第四章大数据可视化

1. 在人类的各项感官中，信息处理带宽最大的是（B）。

A. 听觉 B. 视觉 C. 触觉 D. 嗅觉

2.数据可视化的作用包括：观测和跟踪数据、分析数据、辅助明白数据和（C）

A. 统计数据 B. 转换数据格式 C. 增强数据吸引力 D. 展示数据

3. 数据可视化的发展阶段为科学可视化、（A）、数据可视化

A. 信息可视化 B. 计算可视化 C.分析可视化 D.文本可视化

4.数据可视化的流程为分析、过滤、（B）和绘制

A. 数据预处理 B. 可视映射 C. 可视编码 D. 可视分析

5.数据可视化的过程中需要设计可视化的内容有（ABCD）

A. 原始数据 B. 指标 C. 数据关系 D. 背景数据

6．下列数据属于时间数据的有（ABC）

A. 天气预报 B. 股票实时成交数据 C. 网页日志 D. 学生学籍数据

7．用于表示交际网络可视化工具有（BC）

A. 柱形图 B. 有向图 C. 无向图 D. 扇形图

8．常用于文本分析的图有（ACD）

A. 词云图 B. 折线图 C. 新闻图 D. 短语网络

第五章 Hadoop概论

1. 下面关于Hadoop的叙述中正确的是（B）

A. Hadoop是一个分布式的数据库体系

B. Hadoop是一个分布式计算框架

C. Hadoop是一个Apache基金会推出的云计算贸易产品

D. Hadoop是一个用于呆板学习的大数据处理高级语言

2． Hadoop中的分布式文件体系是（C）

A. ZooKeeper B. Pig C. HDFS D. MapReduce

3． Hadoop中的分布式数据库体系是（A）

A. HBase B. Yarn C. Hive D. Flume

4．在HDFS中数据被分割成块存储，默认的块的大小有如下的（C）

A. 512M B. 1024M C. 64MB D. 56M

5． Hadoop项目源于雅虎公司的一个提拔项目可扩展性的工作

对错

剖析: 源于Apache基金会的项目

6．在Hadoop中数据的存储是分块、多备份的，单个节点出现故障不会影响体系的正常运行。

对错

7． MapReduce在Hadoop中的作用是将一个使命分解成多个小使命，使它们在不同的节点上同步进行。

对错

8． Hive是基于Hadoop中的数据库工具

对错

剖析: Hive是基于Hadoop的数据仓库工具

第六章 HDFS概论

1. HDFS体系中一个文件块Block默认的副本个数为（D）

A. 2 B. 5 C. 4 D. 3

2．在HDFS中，下列选项中（B）不属于元数据包罗的信息

A. 名称空间 B. 数据内容 C. 文件块到DataNode的映射 D. 文件到文件块的映射

3．在HDFS中，元数据存储在（A）中

A. NameNode B. DataNode C. Client D. Switch

4． HDFS是基于（B）语言开辟，并提供了这种语言的客户端编程接口

A. C++ B. Java C. Python D. C

5．HDFS在进行文件写操作时，被划分的最小单元是（C）

A. 1TB B. 128M C. Package（64KB） D. Block（64MB）

6．根据HDFS体系的原理，它不得当处理下列哪些种类的数据（BD）

A. 高吞吐量的日志数据 B. 满意低延迟要求的在线数据

C. 海量的离线数据 D. 大量的小文件构成的数据

7．名称节点NameNode负责管理分布式文件体系的定名空间Namespace，生存了两个焦点的数据结构，分别是（BC）

A. FsLog B. FsImage C. EditLog D. EditImage

第七章 MapReduce概论

1. MapReduce在HDFS的根本上实现了使命的分发、跟踪、执行和（A）等工作，并网络结果。

A. 计算 B. 传输 C. 复制 D. 删除

2．MapReduce实质上是一个（C）

A. 实用于大数据处理的高级语言 B. 分布式存储体系

C. 并行编程计算模型 D. 数据仓库工具

3．一个MapReduce程序被统称为一个（B）

A. Programme B. Job C. Shuffle D. Task

4. MapReduce体系结构主要由四个部分（实体）构成，分别是HDFS，Client，JobTracker和（B）

A. NameNode B. TaskTracker C. TaskSchedule D. DataNode

5.TaskTracker处理的数据集是以数据的切片（split）为单元，其大小为（A）

A. 用户设定 B. 64K C. 1M D. 64M

6.JobTracker在分配各节点的使命时，原则是（C）

A. 随机指定 B. 平均分配给全部节点

C. 就近原则，根据数据切片的位置分配使命 D. 需要用户自己指定

7.MapReduce中每个使命节点上都会执行Map使命，也都会执行Reduce使命。

对错

剖析: 每个使命节点都会执行Map使命，但是执行Reduce使命的节点个数由用户指定，不肯定每个节点都会执行。

8．用户在Reduce过程中有没有定义Combiner对于终极结果没有影响。

对错

剖析: 只影响中心结果，不影响终极结果。

第八章

8.1 NoSQL技能介绍

1. 数据存储技能的发展分为人工管理阶段、文件体系阶段、数据库阶段和（C）

A. 云存储阶段 B. 关系型数据库阶段

C. 分布式文件体系阶段 D. NoSQL数据库阶段

2. 下列不属于数据库体系的优点的是（A）

A. 高冗余性 B. 共享性好

C. 轻易实现安全控制 D. 数据和程序的独立性高

3．数据库的模型主要分为层次型数据库、网状型数据库、关系型数据库和（A）

A. NoSQL B. Oracle RDBMS C. SQL Server D. My SQL

4．如果建立一个人口信息管理的关系型数据库，每个公民都是一个（B）

A. 域 B. 元组 C. 字段 D. 主码

5. 如果建立一个人口信息管理的关系型数据库，则每个公民的下列信息可以作为主码的是（D）

A. 电话号码 B. 姓名 C. 住址 D. 身份证号码

6． Web2.0网站体系中，用户A看到的内容和用户B看到同一网页内容更新不一致是可以容忍的。这个特点主要用于（B）

A. 回归 B. 个性化推荐 C. 聚类分析 D. 关联分析

7．非关系型数据库中，数据表的每一条记录的属性和格式可以不同。

对错

8． CAP理论是指分布式体系必须同时满意强一致性、可用性和分区容忍性，全部这三点需求。

对错

剖析: 只需满意两个就可以

8.2 NoSQL的种类

1. 文档存储数据库中，处理数据的单元是（A）

A. 文档 B. 记录 C. 属性 D. 表

2．在图形存储数据库中，数据的查询就是（C）

A. 图的分解 B. 图的编辑 C. 图的遍历 D. 图的创建

3．在图形存储数据库中，路径是指（B）

A. 由起始节点和终止节点之间的实体（节点和关系）构成的聚集

B. 由起始节点和终止节点之间的实体（节点和关系）构成的有序组合

C. 由起始节点和终止节点之间的边构成的有序组合

D. 由起始节点和终止节点之间的节点构成的有序组合

4．非结构化数据库主要分为列存储、文档存储、图形存储和(B)四类

A. 分布存储 B. 键值存储 C. 集中存储 D. 行存储

5．下列数据库中属于图形存储数据库的是(D)

A. HBase B. Cassandra C. MongoDB D. Neo4j

6．和行存储数据库相比，下列属于列存储数据库主要优势的是（C）

A. 支持事件一致性 B. 支持的数据类型丰富

C. 自动索引化，减少查询计算量 D. 减少存储空间

7．在图形存储数据库中，属性（Property）就是一个键值对（Key/Value Pair），每个节点或关系只能有一个属性

对错

剖析:可以有一个或多个属性

8．在图形存储数据库中，关系对应图中的边，也属于一种实体。

对错

第九章 Spark概论

1. 下列叙述中不属于内存计算优点的是（D）

A. 读写速度比硬盘大大增快。

B. 内存中数据的重用最大化，减少了大量中心结果的IO操作。

C. 可以通过同一地点空间的方法实现分布式共享内存。

D. 代价比硬盘相对低廉，经济性好。

2.下列模块中不属于Spark高层模块的是 (C)

A. Spark Streaming B. SparkSQL C. Spark Core D. GraphX

3. 下列关于内存计算的叙述中正确的是（B）

A. 内存计算SPARK独有的技能，在关系型数据库管理体系中不会使用。

B.内存计算使用大量RAM来处理和分析数据，不需要一连读写基于磁盘数据库上的数据。

C. 内存计算过程可以把数据持久化到内存中。

D. 内存计算可以不用重新计算就可以恢复曾经计算过的数据。

4．Spark是用Scala语言实现的，下列属于Scala语言特点的有（ABCD）

A. 可伸缩性和可扩展性

B. 支持多范式编程

C. 提供快速有效的序列化工具

D. 含有丰富分布式通信模型

5． RDD是spark的焦点数据结构，下列关于它的叙述正确的是 (BCD)

A. RDD作为焦点数据模型，分布在工作节点上

B. RDD中的一个分区对应一个task

C. Transformation算子的输入和输出肯定都是RDD

D. Action算子的输入和输出肯定都是RDD

6．Spark Streaming 是Spark焦点API的一个扩展，可以实现高吞吐量的、具备容错机制的实时批数据的处理。

对错

剖析:应该是实时流数据的处理

7．在GraphX中，图的根本类为Graph，它包罗两个RDD：一个为边RDD，另一个为顶点RDD。

对错

8． Spark SQL的实质就是Hive on Spark。

对错

剖析: Shark的实质才是Hive on Spark

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)