《大数据分析》期末考试整理

一、单项选择题（1*9）

1.大数据发展历程：出现阶段、热门阶段和应用阶段 P2

2.大数据影响 P3

1）大数据对科学活动的影响

2）大数据对思维方式的影响

3）大数据对社会发展的影响

4）大数据对就业市场的影响

3. 人类在科学研究上先后经历了实验、理论、计算、数据思维四种范式 P3

4.大数据特征：数据量大、数据类型繁多、数据产生速度快及数据价值密度低 P5

5.ETL：提取、转换、加载 P7

6.大数据处理框架可分为三类：批处理系统、流处理系统和混合处理系统 P12

7.Requests状态码：200 成功，404 失败

8.正则表达式：

9.Scrapy命令：P88

10.pandas一维数组、二维数组、方法的使用

在pandas库中有两个最基本的数据类型，即Series和DataFrame。其中Series代表一维数组，DataFrame代表二维数组。P277

sum() 对每一列求和

sum(1) 对每一行求和

df- * / () 做减法、乘法、除法

append() 对行或列扩充

reindex() 重新简历一个新的索引对象

drop() 丢弃不需要的数据值

sort_index(）对数据值排序

idxmin 统计最小值索引

idxmax 统计最大值索引

cumsum 对数据值进行累加

11.python的使用

二、填空题（1*12）

1.命令：pip install beautifulsoup4

2.大数据类型：结构化数据、非结构化数据和半结构化数据

3.大数据存储是将数量巨大且难以收集、处理、分析的数据集合持久化到计算机中

4.大数据框架是可以进行大数据分析处理工具的集合，主要用于负责对大数据系统中的数据进行计算。

5.大数据获取方式包括爬虫爬取、用户留存、用户上传、数据交易和数据共享，

6.UA：UserAgent

7.Scrapy是使用Python语言编写的开源网络爬虫框架，也是一个为了爬取网站数据，提取结构性数据而编写的应用框架，简单易用并且是跨平台的。

8.目前实现数据抽取的方式：关系库中的数据抽取和非关系库中的数据抽取

数据抽取的关键技术：时间戳、触发器方式、全量删除插入

9.大数据分析与挖掘的主要内容：可视化分析和数据挖掘算法的选择

**三、判断并改错（3*5）**

1.Request对象用于描述一个HTTP请求，由Spider产生

2.Response对象用于描述一个HTTP响应

3.云数据库并非是一种全新的数据库技术，而只是以服务的方式提供数据库功能。

4.元组数据的元素不能改变，只能读取

5.Spider在项目中名称必须独一无二

6.Python的整型类似于Java的BigInteger类型，它的长度不受限制

7.Python区分整型和浮点型的唯一方式就是看有没有小数点

8.Python中布尔类型可以被当作整数来对待

9.min-max标准化方法是对原始数据进行线性变换

四、简答题（4*2）

大数据发展历程：出现阶段、热门阶段和应用阶段 P2

大数据影响 P3

1）大数据对科学活动的影响

2）大数据对思维方式的影响

3）大数据对社会发展的影响

4）大数据对就业市场的影响

大数据对思维方式的影响：

1.人们处理的数据从样本数据变成全部数据

2.人们不得不接受数据的混杂性，放弃对精确性的追求

3.人类通过对大数据的处理放弃对因果关系的渴求，转而关注相关关系

大数据特征：数据量大、数据类型繁多、数据产生速度快及数据价值密度低 P5

大数据与云计算的联系：

大数据与云计算都较好地代表了IT界发展的趋势，二者相互联系，密不可分。云计算就是计算机硬件资源的虚拟化，而大数据是对海量数据的高效处理。

区别：

1.在概念上两者有所不同，云计算改变了IT，而大数据改变了业务。然而大数据必须有云作为基础架构才能得以顺畅运营

2.大数据和云计算的目标受众不同，云计算是CIO等关心的技术层，是一个进阶的IT解决方案。而大数据是CEO关注的，是业务层的产品，大数据的决策者是业务层。

综上，大数据与云计算二者已经彼此渗透，密不可分。

大数据与人工智能的区别：

1.在概念上两者有所不同，大数据和云计算可以理解为技术上的概念，人工智能是应用层面的概念，人工智能的技术前提是云计算和大数据

2.在实现上，大数据主要是依靠海量数据来帮助人们对问题做出更好判断和分析，而人工智能是一种计算形式，它允许机器执行认知功能。

综上所述，虽然它们有很大区别，但人工智能和大数据仍然能够很好地协同工作。二者相互促进，相互发展。