最新消息:可做奥鹏等各院校作业论文,答案请联系QQ/微信:18866732

南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据导论》在线作业【标准答案】

20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据导论》在线作业

试卷总分:100  得分:100

一、单选题 (共 15 道试题,共 30 分)

1.大数据的最显著特征是() 。

A.数据规模大

B.数据类型多样

C.数据处理速度快

D.数据价值密度高

 

2.下列哪个R语言扩展包可以创建带有点和边的网络图()

A.ggplot2

B.network

C.ggmaps

D.animation

 

3.下列不属于Google云计算平台技术架构的是()

A.并行数据处理MapReduce

B.分布式锁Chubby

C.结构化数据表BigTable

D.弹性云计算EC2

 

4.基础设施即服务的英文简称是

A.IaaS

B.PaaS

C.SaaS

 

5.PaaS是()的简称

A.软件即服务

B.平台即服务

C.基础设施即服务

D.硬件即服务

 

6.MapReduce中的Map和Reduce函数使用()进行输入输出

A.key/value对

B.随机数值

C.其他计算结果

 

7.用于描述相等时间间隔下连续数据随时间变化趋势的是()

A.折线图

B.散点图

C.条形图

D.饼图

 

8.GFS中的文件切分成()的块进行存储

A.32MB

B.64MB

C.128MB

D.1G

 

9.以下不是数据仓库基本特征的是()

A.数据仓库是面向主题的

B.数据仓库是面向事务的

C.数据仓库的数据是相对稳定的

D.数据仓库的数据是反映历史变化的

 

10.下面哪一项不是中国发展大数据产业的基础()。

A.信息化积累了丰富的数据资源

B.大数据技术创新取得明显突破

C.大数据应用推动势头良好

D.大数据产业支撑薄弱

 

11.IaaS是()的简称

A.软件即服务

B.平台即服务

C.基础设施即服务

D.硬件即服务

 

12.下列哪个工具常用来开发移动友好地交互地图()

A.Leaflet

B.Visual.ly

C.BPizza Pie Charts

D.Gephi

 

13.数据清洗的方法不包括

A.缺失值处理

B.噪声数据清除

C.一致性检查

D.重复数据记录处理

 

14.数据仓库是随着时间变化的,下列不正确的是()

A.数据仓库随时间变化不断增加新内容

B.捕捉到的新数据会覆盖原来的快照

C.数据仓库随事件变化不断删去旧的数据内容

D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合

 

15.下列不属于商业大数据类型的是

A.传统企业数据

B.机器和传感器数据

C.社交数据

D.电子商务数据

 

二、多选题 (共 15 道试题,共 30 分)

16.主流分布式计算平台有()

A.google

B.IBM

C.baidu

D.Amazon

 

17.一个HDFS集群由一个##和##构成。此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)。

A.一个名字节点

B.若干个名字节点

C.一个数据节点

D.若干个数据节点

 

18.关于R语言扩展包下列正确的是()

A.network可创建带有点和边的网络图

B.animation可制作一系列的图像并将它们串联起来做成动画

C.ggmaps通过树图来可视化层次型数据

D.protfolio基于谷歌地图、OpenStreetMap及其他地图的空间数据可视化工具

 

19.大数据在电信中的应用有

A.基于用户、业务及流量分级的多维管控机制

B.精准的客户分析及营销

C.利用位置和轨迹信息服务社会

 

20.去除噪声使得数据光滑的技术主要有:

A.分箱

B.回归

C.离群点分析

 

21.大数据在医疗中的应用有()

A.流行性疾病预防

B.慢性病健康管理

C.临床决策支持

D.医疗器械研发

 

22.医疗大数据的来源主要包括()

A.制药企业/生命科学

B.临床医疗/实验室数据

C.费用报销/利用率

D.健康管理/社交网络

 

23.下列正确的是()

A.D3是数据驱动文件的缩写,是最流行的可视化库之一,它被很多其他的表格插件所使用

B.D3也可以通过一些自定义模块来根据需求增添需要的(非DOM)特性,并在WebWorker上运行

C.D3采用的是Selectors API的第一级标准

D.基础R已经包含支撑包括协同图(Coplot)、拼接图(Mosaic Plot)和双标图等多类图形的功能。

 

24.按照数据量的大小,可将数据分析分为()

A.内存级数据分析

B.Bl级数据分析

C.海量级数据分析

D.巨量级数据分析

 

25.基于大数据的临床决策支持系统的架构包括

A.支撑层

B.大数据分析层

C.网络层

D.应用层

 

26.常见的非结构化数据有()

A.web网页

B.即时消息

C.富文本文档

D.实时多媒体数据

 

27.统计图表的可视化方法主要包括()

A.散点图

B.折线图

C.条形图

D.饼图

 

28.离群点检测的应用包括()等。

A.欺诈检测

B.入侵检测

C.故障检测

D.疾病的不寻常模式

 

29.层次方法可以分为()

A.K均值算法

B.K中心点算法

C.凝聚法

D.分裂法

 

30.常见的分类方法有

A.决策树

B.贝叶斯网络

C.遗传算法

D.FP算法

 

三、判断题 (共 20 道试题,共 40 分)

31.广义的Spark是指Spark生态系统,采用了四层架构。

 

32.数据挖掘方法侧重于从数据驱动的角度出发获取模式或规律。因此,针对海量人类移动数据,数据挖掘方法可以发挥其挖掘模式或规律的长处。

 

33.数据会吸引更多的潜在攻击者,成为更具吸引力的目标。

 

34.数据规约是在尽可能保持数据原貌的前提下,最大限度地精简数据量

 

35.FP是一种最有影响的挖掘布尔关联规则频繁项集的算法

 

36.百度地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节前后人口大迁徙的轨迹与特征。

 

37.空间视图提供了交通堵塞的概览

 

38.基于大数据的智慧医疗系统的建立,能显著的提高医疗机构的信息化水平,为医院、患者带去更多的利益。

 

39.通常将统计指标的数值按时间顺序排列所形成的数列,称为时间序列。

 

40.数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。

 

41.HDFS为海量的数据提供了存储;

 

42.美国《自然》(Nature)杂志专刊——The next google,第一次正式提出“大数据”概念。

 

43.弹性是指有容错的机制,若一个RDD分片去失,Spark可以根据粗粒度的日志数据更新记录的信息重构它。

 

44.云存储中用户需要按需付费并使用存储服务

 

45.宁家骏委员指出,我国发展医疗服务业,同时发展智慧养老。

 

46.非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值

 

47.内存分析数据量比BI分析数据量大

 

48.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。

 

49.属性或维命名的不一致也可能导致结果数据集中的数据冗余。

 

50.多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面

转载请注明:奥鹏作业之家 » 南开20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据导论》在线作业【标准答案】

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址