南开20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《数据科学导论》在线作业【标准答案】-奥鹏作业之家

20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《数据科学导论》在线作业

试卷总分:100 得分:92

一、单选题 (共 20 道试题,共 40 分)

1.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台，单位成本增加100元

B.产量每增加一台，单位成本减少1.2元

C.产量每增加一台，单位成本平均减少1.2元

D.产量每增加一台，单位平均增加100元

2.置信度(confidence)是衡量兴趣度度量( )的指标。

A.简洁性

B.确定性

C.实用性

D.新颖性

3.实体识别属于以下哪个过程()

A.数据清洗

B.数据集成

C.数据规约

D.数据变换

4.在一元线性回归模型中,残差项服从()分布。

A.泊松

B.正态

C.线性

D.非线性

5.手肘法的核心指标是()。

A.SES

B.SSE

C.RMSE

D.MSE

6.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型

7.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()

A.关联规则发现

B.聚类

C.分类

D.自然语言处理

8.下列两个变量之间的关系中,哪个是函数关系()。

A.人的性别和他的身高

B.人的工资与年龄

C.正方形的面积和边长

D.温度与湿度

9.聚类是一种()。

A.有监督学习

B.无监督学习

C.强化学习

D.半监督学习

10.以下哪些不是缺失值的影响()

A.数据建模将丢失大量有用信息

B.数据建模的不确定性更加显著

C.对整体总是不产生什么作用

D.包含空值的数据可能会使建模过程陷入混乱，导致异常的输出

11.多层感知机是由()层神经元组成。

A.二

B.三

C.大于等于二层

D.大于等于三层

12.以下哪一项不属于数据变换()

A.简单函数变换

B.规范化

C.属性合并

D.连续属性离散化

13.以下哪一项不是特征工程的子问题()

A.特征创建

B.特征提取

C.特征选择

D.特征识别

14.哪一项不属于规范化的方法()

A.最小-最大规范化

B.零-均值规范化

C.小数定标规范化

D.中位数规范化

15.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小，减小

B.减小，增大

C.增大，减小

D.增大，增大

16.在回归分析中,自变量为(),因变量为()。

A.离散型变量，离散型变量

B.连续型变量，离散型变量

C.离散型变量，连续型变量

D.连续型变量，连续型变量

17.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性

18.以下属于关联分析的是( )

A.CPU性能预测

B.购物篮分析

C.自动判断鸢尾花类别

D.股票趋势建模

19.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

20.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。

A.自上而下

B.自下而上

C.自左而右

D.自右而左

二、多选题 (共 10 道试题,共 20 分)

21.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播

22.下面例子属于分类的是()

A.检测图像中是否有人脸出现

B.对客户按照贷款风险大小进行分类

C.识别手写的数字

D.估计商场客流量

23.距离度量中的距离可以是()

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离

24.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度

25.下列选项是BFR的对象是()

A.废弃集

B.临时集

C.压缩集

D.留存集

26.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

27.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

28.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

29.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取

30.聚类的主要方法有()。

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

三、判断题 (共 20 道试题,共 40 分)

31.决策树分类时将该结点的实例强行分到条件概率大的那一类去

32.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。

33.阶跃函数具有不光滑、不连续的特点。

34.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。

35.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。

36.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。

37.决策树内部结点表示一个类,叶结点表示一个特征或属性

38.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能

39.信息熵越小,样本结合的纯度越低

40.决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建

41.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。

42.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构

43.集中趋势能够表明在一定条件下数据的独特性质与差异

44.对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。

45.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。

46.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。

47.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。

48.增加神经元的个数,无法提高神经网络的训练精度。

49.K-means算法采用贪心策略,通过迭代优化来近似求解。

50.使用SVD方法进行图像压缩不可以保留图像的重要特征。

转载请注明：奥鹏作业之家 » 南开20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《数据科学导论》在线作业【标准答案】

南开20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《数据科学导论》在线作业【标准答案】

与本文相关的文章

Hi，您需要填写昵称和邮箱！