智慧树知到《大数据应用基础(山东建筑大学)》2025章节测试答案
答案:A
8.关于下面这段代码,描述不正确的是( )。
A、x_train,y_train分别是指训练集的自变量和因变量 B:训练集和测试集的比例为0.25:0.75 C:x_test,y_test分别是指测试集的自变量和因变量 D:sklearn.model_selection.train_test_split()方法可用于将数据集分为训练集和测试集两部分
答案:B
9.有关文本分析的描述,不正确的是( )。
A、去除停用词是指去除文本中包含信息较多、使用频率又很高的词 B:一般而言,进行文本分析的起始步骤是词语分词 C:词性标注是指为词语标注相应词性的过程 D:词干提取可用于英文文本分析
答案:A
10.可用于英文分词的方法是( )。
A、nltk.FreDist() B:stopwords.words() C:nltk.word_tokenize() D:nltk.pos_tag()
答案:C
第七章测试
1.更改一个文件权限的命令是( )。
A、cat B:attrib C:chmod D:chown
答案:C
2.Linux中权限最大的账户是( )。
A、admin B:super C:guest D:root
答案:D
3.Linux的命令由连续的字符组成,命令和参数之间可以没有空格。( )
A、对 B:错
答案:B
4.Linux操作系统的主要特点是( )。
A、免费 B:多用户多任务 C:开源 D:安全
答案:ABCD
5.从目录/home/glxy/app切换到目录/home/glxy/hadoop的相对路径是( )
A、hadoop B:../hadoop C:/home/glxy/hadoop D:./hadoop
答案:B
第八章测试
1.一种典型的数据处理使用模式是:首先使用()工具对原始海量数据进行分析,产生较小规模的数据集,再使用()工具对该数据集进行快速查询,获取最终结果。
A、批处理、流处理 B:交互式处理、批处理 C:流处理、批处理 D:批处理、交互式处理
答案:D
2.大数据管理平台技术的发展历程为( )。
A、开源阶段 B:初始阶段 C:流处理阶段 D:内存计算阶段
答案:ABCD
3.常用的流数据处理技术有( )。
A、Strom B:Hadoop C:Spark Streaming D:Flink
答案:ACD
4.下述哪些技术不属于开源技术( )。
A、Spark B:Hadoop C:GFS D:Flink
答案:C
5.大数据管理平台技术可以应用到下述哪些领域场景中( )。
A、电信 B:医疗 C:交通 D:互联网
答案:ABCD
第九章测试
1.在HDFS中负责保存文件数据的节点被称为( )。
A、NameNode B:DataNode C:SecondaryNameNode D:NodeManager
答案:B
2.下面与HDFS类似的框架是( )?
A、EXT3 B:FAT32 C:GFS D:NTFS
答案:C
3.下面哪个程序负责 HDFS 数据存储( )。
A、secondaryNameNode B:Datanode C:NameNode D:Jobtracker
答案:B
4.HDFS中的NameNode节点用于存放元数据,数据内容包含( )。
A、客户端硬件配置数据 B:数据块与数据节点的映射表 C:文件与数据块的映射表 D:每个数据块的内容
答案:BC
5.HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行。( )