数据科学与Python(习题汇总)

打印 上一主题 下一主题

主题 762|帖子 762|积分 2286

目次


单项选择题


以下形貌中正确的是( )。
(传统)商务智能重要关注的是对“过去时间”的“表明性研究” (答案)
数据科学的重要处理惩罚对象以布局化数据为主
数据科学重要关注的是对“将来时间”的“诊断性研究”
(传统)商务智能的重要处理惩罚对象以非布局化数据为主

与传统科学不同的是,数据科学是由( )驱动。
目的
数据 (答案)
使命
算法

Google公司研究总监PeterNorvig曾说“我们(谷歌)没有更好的算法,只是多了点数据而已”,他的这句话强调的是( )。
算法的重要性
数据的重要性(答案)
CGoogle文件体系的重要性
DGoogle MapR数据工程重要关注的是如何基于数据举行辅助决策(或决策支持)、商业洞察、预测将来、发现潜在模式以及如何将数据转换为智慧或产品 educe的重要性

数据科学具有三个基本要素,即理论、实践和精力。此中,将”精力“可以理解为( )。
黑客精力 (答案)
骇客精力
奋斗精力
3C精力

下列选项中,不属于Seaborn库特点的是()。
Seaborn是基于Matplotlib的可视化库
基于网格绘制出更加复杂的图像集合
多个内置主题及颜色主题
可以处理惩罚大量的数据流 (答案)

下列关于字符串的表述中,不合法的是()
“‘Python’”
[python] (答案)
"p'yth'on"
'py"th"on'

下列语法正确的是(   )。
print"hello,world"
print(‘hello,world’)
print('hello,world') (答案)
print(hello,world)

tuple(range(2,10,2))的返回结果为( )。
(2,4,6,8,10)
[2,4,6,8]
[2,4,6,8,10]
(2, 4, 6, 8) (答案)

已知x = np.array((1, 2, 3, 4, 5)),那么表达式sum(x*x)的值
50
55 (答案)
60
65
1 * 1 + 2 * 2 + 3 * 3 + 4 * 4 + 5 * 5 = 55

下列选项中,不是Python关键字的是()
pass
from
yield
static (答案)

下面代码的输出结果是( )
for s in "abc":
   for i in range(3):
      print (s,end="")
      if s=="c":
          break
aaabbbccc
aaabbbc (答案)
abbbccc
aaabccc

在Python中实现多个条件判断须要用到()语句与if语句的组合
else
elif (答案)
pass
以上均不是

以下选项中,不是建立字典的方式是( )。
d = {[1,2]:1, [3,4]:3} (答案)
d = {1:[1,2], 3:[3,4]}
d = {(1,2):1, (3,4):3}
d = {'张三':1, '李四':2}
(列表不能作为key,元组可以)

已知x= np.array((1,2, 3, 4, 5)), 那么表达式(x//5).sum()的值
1 (答案)
2
3
4
//向下取整,0+0+0+0+1=1

可以用来创建Python自定义函数的关键字的是()
function
def (答案)
class
return

下面代码的输出结果是( )
x=10
y=3
print(x%y,x**y)
1 30
1 1000 (答案)
3 1000
3 30

Python 语言属于以下哪种语言()
机器语言
汇编语言
高级语言 (答案)
以上均不是

关于Python语言的变量,以下选项中说法正确的是( )。
随时定名、随时赋值、随时变换类型 
随时声明、随时利用、随时开释
随时定名、随时赋值、随时利用(答案)
随时声明、随时赋值、随时变换类型

已知x= np.array((1,2,3,4,5)),那么表达(x ** 2).max()的值为
15
20
25 (答案)
30

代码:
 for i in range(4):
    if i==3:
        break
    print(i)
print(i)
运行结果正确的是()
0123 (答案)
0122
123
234

下列说法中正确的是( )。
continue能结束循环,而break只能结束本次循环
break能结束循环,而continue只能结束本次循环 (答案)
break用在for语句中,而continue用在while 语句中
break用在while语句中,而continue用在for语句中

在Matplotlib中,用于绘制散点图的函数是()。
hist()
scatter() (答案)
bar()
pie()

C4.5决策树构造算法的特性选择采用(   )。
信息增益
基尼系数
条件熵
信息熵 (答案)

以下关于异常值检测的说法中错误的是()。
3δ原则利用了统计学中小概率事件的原理分布
利用箱线图方法时要求数据服从或近似服从正态分布
基于聚类的方法可以举行离群点检测
基于分类的方法可以举行离群点检测 (答案)
(离群点也算是一个正常的分类类别)

下列与标准化方法有关的说法中错误的是()。
离差标准化简单易懂,对最大值和最小值敏感度不高 (答案)
标准差标准化是最常用的标准化方法,又名零—匀值标准化
小数定标标准化实质上就是将数据按照一定的比例缩小
多个特性的数据的K-Means聚类不须要对数据举行标准化
(离差标准化公式:xj = xi − xmin / xmax − xmin对最大值和最小值敏感度很高,可以使数据范围划定在[0,1]之间)​

如果拟合曲线几乎通过了所有实测数据点,很有大概出现的现象是( )。
过拟合。 (答案)
正常拟合。
不确定。
欠拟合。

支持向量机SVM算法采用的丧失函数是()
指数丧失函数
Logistic丧失函数
铰链丧失函数 (答案)
都可以
(该丧失函数重要用于二分类问题,目的是最大化分类隔断。含义是:如果样本被正确分类且距离决策边界有一定的隔断,那么丧失为0;如果样本被错误分类或距离决策边界太近,则丧失会随着距离的减小而增大。)

机器学习的实质是()。
根据再用数据,寻找输入数据和输出数据的映射关系/函数
权衡输入数据和输出数据的映射关系 /函数的好坏
建立数据模型
挑出输入数据和输出数据的最佳映射关系/函数 (答案)

有一份数据,须要检察数据的类型,并将部分数据做逼迫类型转换,以及对数值型数据做基本的形貌性分析。下列的步骤和方法正确的是( ).
dtypes检察类型,astype转换类别,describe形貌性统计 (答案)
astype检察类型,dtypes转换类别,describe形貌性统计
describe检察类型,astype转换类别,dtypes形貌性统计
dtypes检察类型,describe转换类别,astype形貌性统计

以下关于缺失值检测的说法中,正确的是()。
mull和notnull可以对缺失值举行处理惩罚
dropna方法既可以删除观测记录,亦可以删除特性(答案)
fillna 方法中用来填充缺失值的值只能是数据框
pandas库中的interpolate模块包含了多种插值方法
(疑似Python中没有mull方法,所以第一条错)
(fillna() 方法可以用标量值、字典、其他数据框或通过前向/后向填充方法来填充缺失值,而不仅仅限于整个数据框。)
(第四条有错误吗,我怎么没看出来)

Logistic回归分析属于(   ) 回归
非概率线性
概率线性
概率非线性 (答案)
非概率非线性

下面哪一个其法不是聚类分析算法()
K-means
K中央点算法
DBSCAN
KNN (答案)
(KNN(K-Nearest Neighbors,K 最近邻)是一种简单且常用的机器学习算法,重要用于分类和回归使命。)

下列loc、iloc、ix属性的用法正确的是()
df.loc['列名','索引名'];df.iloc['索引位置','列位置'];df.ix['索引位置','列名']
df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引位置','列名']
df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引名','列位置']
df.loc['索引名','列名'];df.iloc['索引位置','列位置'];df.ix['索引位置','列位置'] (答案)
df.loc:通过标签(索引名)来访问数据。您可以利用行和列的标签来检索特定的行或列。
df.iloc:通过整数位置来访问数据。行和列的索引是基于零的整数值。
df.ix:是一个混合索引器,可用于同时利用标签和位置。但是 df.ix 在 Pandas 0.20.0 版本中已经被弃用,因此发起利用 df.loc 和 df.iloc 代替。

以下关于数据分析预处理惩罚的过程形貌正确的是()
数据清洗包含广数机积准化、数据合并和缺失值处理惩罚
数据合并按照合并轴方向重要分为左毗连、右毗连、内毗连和外毗连
数据分析的预处理惩罚过程重要包罗效据清洗, 数据合井、敏据标准化柏数据转换,它们之间存在交叉,没有严酷的先后关系。 (答案)
数据标准化的重要对象是类别型的特性

不定项选择题


以下叙述中正确的是( )。
数据科学中对数据复杂性产生了全新的熟悉,复杂性被视为是大数据自身的不可分离属性. (答案)
数据科学重要关注的是数据密集型问题,而不是盘算密集型问题。 (答案)
数据科学中数据处理惩罚范式从“模式在先、数据在后范式”转向“数据在先、模式在后范式”或“数据在先,无模式范式”。 (答案)
数据科学中,数据不仅是一种“资源”,而且更是一种重要“资产”。 (答案)

以下形貌中,属于大数据期间对数据工程师的岗位职责的是( )。
数据的ETL转换 (答案)
主数据管理 (答案)
数据集成 (答案)
基于数据提出好问题
(基于数据提出好问题 更多地被视为数据分析师的职责。)

以下形貌中属于数据科学的重要职责的是( )。
制定“数据战略”。 (答案)
构建“数据生态体系”。 (答案)
提出“基于数据的好问题”。 (答案)
数据的备份与恢复
(数据备份通常和IT运维相关,重要目的是保证数据的可用性和安全性,不是数据科学的焦点职责。)

以下形貌中正确的是( )。
“基于数据的智能”的重要特点是“数据复杂,但算法简单” (答案)
数据科学中强调的是基于数据的智能。 (答案)
数据科学中强调的是基于算法的智能。

大数据的资产属性表现在( )。
具有劳动增值 (答案)
明确的法律权属 (答案)
具有财政价值 (答案)
涉及道德与伦理 (答案)

在大数据期间,大数据分析师的重要岗位职责包罗( )。
数据预备 (答案)
数据分析活动的执行 (答案)
分析结果的呈现 (答案)
数据接口的设计
(重要由软件开辟部分实现)

以下形貌中错误的是( )。
数据科学重要关注的是数据本身的管理; (答案)
数据工程是数据科学的一个新的分支范畴; (答案)
数据工程重要关注的是基于数据的管理 (答案)
(一三条写反了)

DrewConway的数据科学维恩图显示,数据科学处于( )的交叉之处。
数学与统计学 (答案)
范畴实战 (答案)
黑客精力 (答案)
盘算机科学

数据科学中的”3C精力“中的3个C分别代表的是
创造性设计 (答案)creative
逾越自我
批驳性思考 (答案)criticism
好奇心提问 (答案)curiosity

以下形貌中,数据科学家应具备以下能力(含素质)为( )。
掌握数据科学的理论底子———统计学、机器学习和数据可视化。 (答案)
提出“好”的研究假设或问题,并完成对应的试验设计。 (答案)
积累参与数据科学项目的履历,包罗编程履历和统计分析履历 (答案)
拥有数据产品的研发能力 (答案)

Python标准库对象导入语句正确的是()
import math.sin as sin
from math import sin (答案)
import math.*
from math import* (答案)

下面开辟环境可以用来编写和调试Python程序的有()
IDLE (答案)
Pythcharm (答案)
Jupyter Notebook (答案)
Spyder (答案)

下面说法正确的选项有()
正确的缩进对Python程序黑白常重要的 (答案)
在表达式中圆括号可以改变运算次序 (答案)
在Python3.x中可以利用中文做变量名 (答案)
Python程序中的空格和空行可有可无,但是得当的增加空格和空行可以提高代码的可读性。

有关聚类分析说法正确的是()。
无需对样本举行标记 (答案)
聚类分析无法提取样本特性 (答案)
聚类分析簇间数据具有较大的差异性
聚类分析可以分析样本的分布特点 (答案)

支持向量机分类器求解方法有( )。
以下都不对
内点法 (答案)
随机梯度下降 (答案)
序列最小优化 (答案)

以下表达正确的是()
深度学习是机器学习的一种 (答案)
人工智能是人们长远以来的目的,期待机器像人一样有智慧
机器学习指机器有学习的能力,是人类达成人工智能目的的手段。 (答案)
人或机器表现的很有智慧取决于先天本能/创造者事先设定的规则和后天学习。 (答案)

关于K-means聚类说法正确的是( )。
K-means须要事先指定K的数目 (答案)
K-means的聚类中央是聚类中央的均值 (答案)
K-means实现没有采用的贪婪策略
K-means的聚类中央一 定是样本空间的数据 (答案)

关于朴素贝叶斯分类器,正确的有 (  )。
是一种概率分类器 (答案)
利用贝叶斯公式将样本属于某个类别的概率转换为后验概率来盘算 (答案)
所谓“朴素”假设,即是样本独立同分布的的假设 (答案)
所谓“朴素”假设,即是样本特性(属性)的条件独立假设

以下方法中,能够利用pandas.DataFrame()创建DataFrame的是()
通过Python字典 (答案)
通过ndarray对象创建 (答案)
通过随机函数创建 (答案)
通过Series创建 (答案)

下列关于Pandas数据读/写说法正确的是()
read_csv能够读取所有文本文档的数据
read_sql能够读取数据库的数据 (答案)
to_csv函数能够读取数据库的数据写入.csv文件 (答案)
to_excel函数能够将布局化数据写入Excel文件 (答案)

数据质量包含的要素有( )
准确性、完整性 (答案)
时效性、可信性 (答案)
同等性、可表明性 (答案)
决定性

判断题


在数据科学项目中,特别强调数据科学家的沟通能力,包罗与项目中的其他干系人的沟通能力、数据可视化能力和数据故事化形貌能力。T

当数据量足够大时,我们可以通过简单的“数据洞见(DataInsight)”操纵,找出并评估历史数据中已存在的翻译记录,同样可以实现与传统“知识范式”相当的智能水平。T

数据分析师和数据工程师并非大数据期间新产生的岗位,但其能力要求和岗位并未发生厘革。F

大数据分析师须要掌握应用统计学,包罗试验设计、统计建模、统计验证和高级应用统计学。T

在数据科学项目中,数据科学家往往以团队合作方式弥补各自的劣势,充实发挥自己的优势和特长。T

数据密集型应用中数据成为应用体系的重要难点、瓶颈和挑衅。T

数据科学家一定是一般意义上的“科学家”。F

“数据码农”完全可以胜任“数据科学家”的角色。F

大数据分析师须要掌握应用机器学习的知识,包罗算法设计、算法优化、算法选择、深度学习及特性工程。T

书写文件路径时,为了减少路径中分隔符“\”符号的输入,同时也为了制止不正确的转义导致代码错误,发起利用原始字符串。T

在函数内部没有任何声明的情况下直接为某个变量赋值,这个变量一定是函数内部的局部变量。T

在编写代码时,一般应先导入标准库对象,再导入扩展库对象。T

在定义函数时,某个参数名字前面带有两个*符号表示可变长度参数,可以接收任意多个关键参数并将其存放于一个字典之中。T

Python列表中所有元素必须为雷同类型的数据。F

缩进对于Python代码至关重要。T

扩展库numpy中的arange()函数功能和内置函数range()类似.只能天生包含整数的数组,无法创建包含浮点数的数组。F

已知x.shape的值为(3,5), 那么语句x[:, 2]=2的作用是把数组x所有行中列下标为3的元素值都改为2。F
(x[:, 2] 的作用是把数组 x 中所有行的列下标为 2 的元素选取出来,形成一个新的一维数组。)

在Python3.x中,reduce()是内置函数,可以直接利用。F

扩展库numpy的线性代数子模块linalg 中提供了盘算奇异值分解的svd0函数。T

两个不等长的数组不能相加。T

表达式np.empty((3,5)).sum()的值一定为0。T

利用内置函数open()且以"w"模式打开的文件,文件指针默认指向文件尾。F
(如果以 "a"(附加)模式打开文件,文件指针确实会指向文件末端,以便在现有内容之后添加新内容。在 "w" 模式下,文件指针默认指向文件的开头。)

包含列表的元组可以作为字典的“键”。F

DBSCAN算法对参数敏感。T

凝聚聚类分析是一种自底向上的聚类分析算法。T
(自底向上:这意味着聚类过程从个体数据点(每个数据点被视为一个单独的簇)开始,然后逐步将它们聚合成更大的簇。在每一步中,算法都会找到最近的两个簇并将它们合并,直到满足停止标准(如到达预定的簇数量或距离阈值)。)

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大连密封材料

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表