最新消息:可做奥鹏等各院校作业论文,答案请联系QQ/微信:18866732

【奥鹏】南开22秋学期《大数据开发技术(二)》在线作业

22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003

试卷总分:100  得分:100

一、单选题 (共 25 道试题,共 50 分)

1.以下算法中属于聚类算法的是()

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

 

2.Spark GraphX中类Graph的reverse方法可以()

A.反转图中所有边的方向

B.按照设定条件取出子图

C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性

D.合并边相同的属性

 

3.GraphX中()是提供顶点的各种操作方法的对象

A.RDD[Edge]

B.EdgeRDD

C.RDD[(VertexId,VD)]

D.VertexRDD

 

4.Spark Streming中DStream的每个RDD都是由()分割开来的数据集

A.分区

B.一小段时间

C.数据量

D.随机

 

5.请问RDD的()操作作用于K-V类型的RDD上,返回指定K的所有V值

A.search

B.find

C.findByKey

D.lookup

 

6.GraphX中()方法可以查询边信息

A.numVertices

B.numEdges

C.vertices

D.edges

 

7.Scala源代码被编译成()字节码,所以它可以运行于JVM之上

A.Spark

B.Scala

C.Java

D.JDK

 

8.Scala中重写一个非抽象方法必须使用()修饰符。

A.extends

B.override

C.extend

D.overrides

 

9.Graph类中如果要直接通过边数据文件创建图,要求数据按空格分隔,应该用()方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)

 

10.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()

A.filter

B.foreach

C.map

D.mkString

 

11.Mllib中线性会馆算法中的参数stepSize表示()

A.要运行的迭代次数

B.梯度下降的步长

C.是否给数据加干扰特征或者偏差特征

D.Lasso 和ridge 的正规化参数

 

12.Scala列表方法中丢弃前n个元素,并返回新列表的方法是()

A.drop

B.head

C.filter

D.init

 

13.以下算法中属于无监督学习算法的是()

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

 

14.var a=10; do{ a+=1; }while(a<20) 共循环了()次

A.9

B.10

C.11

D.12

 

15.Scala中如果函数无返回值,则函数返回类型为()

A.NULL

B.Void奥鹏作业答案请进open5.net或请联系QQ/微信:18866732

C.Nothing

D.Unit

 

16.var a=10; while(a<20){ a+=1; } 共循环了()次

A.9

B.10

C.11

D.12

 

17.递归函数意味着函数可以调用它()

A.其他函数

B.主函数

C.子函数

D.自身

 

18.Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是()

A.map

B.foreach

C.flatten

D.flatmap

 

19.Spark中DataFrame的()方法是进行排序查询

A.order by

B.group by

C.select by

D.sort by

 

20.Spark Streming中()函数可以对统计DStream中每个RDD包含的元素的个数,得到一个新的DStream

A.count

B.union

C.length

D.reduce

 

21.Spark Streming中()函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的Dstream

A.map

B.flatMap

C.filter

D.union

 

22.()是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上

A.SparkR

B.BlinkDB

C.GraphX

D.Mllib

 

23.Graph类中如果根据边数据创建图,数据需要转换成RDD[Edge[ED]类型,应该用()方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)

 

24.Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是()

A.filter

B.flatten

C.grouby

D.flatmap

 

25.以下哪个函数可以求两个RDD交集 ()

A.union

B.substract

C.intersection

D.cartesian

 

二、多选题 (共 10 道试题,共 20 分)

26.Spark Streaming能够处理来自()的数据

A.Kafka

B.Flume

C.Twitter

D.ZeroMQ

 

27.Scala系统支持()作为对象成员

A.通用类

B.内部类

C.抽象类

D.复合类

 

28.Scala中可以用()方法来连接两个或多个列表

A.::

B.#:::

C.List.:::()

D.List.concat()

 

29.Scala中构造列表的两个基本单位是 ()

A.Nil

B.Nill

C.::

D.List

 

30.Spark创建DataFrame对象方式有()

A.结构化数据文件

B.外部数据库

C.RDD

D.Hive中的表

 

31.Spark的RDD持久化操作有()方式

A.cache

B.presist

C.storage

D.long

 

32.TF-IDF中TF指的是()

A.词频

B.词在文档中出现的次数

C.逆文档概率

D.词在文档集中出现的概率

E.词在文档集中出现的概率

 

33.MapReudce不适合()任务

A.大数据计算

B.迭代

C.交互式

D.离线分析

 

34.Spark支持的文件格式包括()

A.文本文件

B.JSON

C.CSV

D.SequenceFile

 

35.Spark Streaming的特点有()

A.单极性

B.可伸缩

C.高吞吐量

D.容错能力强

 

三、判断题 (共 15 道试题,共 30 分)

36.RDD的sortBy排序默认是升序

 

37.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。

 

38.Scala中Map的isEmpty函数在Map为空时返回false

 

39.Spark中DataFrame 的查询操作也是一个懒操作, 仅仅生成一个查询计划, 只有触发Action 操作才会进行计算并返回查询结果。

 

40.RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。

 

41.RDD是一个可读写的数据结构

 

42.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同

 

43.RDD中join操作最后只返回两个RDD 都存在的键的连接结果。

 

44.Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗

 

45.SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD

 

46.Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。

 

47.PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。

 

48.PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作

 

49.MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。

 

50.RDD的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。

 

转载请注明:奥鹏作业之家 » 【奥鹏】南开22秋学期《大数据开发技术(二)》在线作业

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址