大数据面试题（校招） - 物流园资讯移动站

大数据面试题（校招）

2024-11-11 02:16

一般有关系建模和维度建模，关系建模遵循范式，一般有一范式、二范式、三范式、bc范式等。维度建模一般有星型模型、雪花模型、星座模型。星型模型允许数据冗余但是减少shuffle、雪花模型一般遵循范式，数据冗余少但增多工作量。星座模型与前两种不冲突，由多张事实表汇总。

大数据面试题（校招）

维度建模有两种表：维度表、事实表。事实表存储现实发生的操作型事件，每完成一次事件对应增加一次记录。维度表就是一件事件的多个维度。事实表多个外键与维度表关联。维度建模4个过程：选择业务过程、声明粒度、确认维度、确认事实。

原因：大量空值、key分布不均。解决： 1.在map后combine 2.两次mr，第一次map对key加随机前缀，就会平均分配到reducer中，第二次mr去除前缀，性能较低 3.增加reduce个数，提升并行度 4.自定义hash，将key平均分配 5.（hive）groupby代替distinct，distinct只有一个reduce任务 6.（hive）大表join小表：开启map_join，将小表加载到内存，在map端join，否则在reduce端join 7.（hive）大表join大表：a表加随机数，b表扩容，然后ab表聚合

见上

ods层：保持数据不修改、压缩、创建分区表防止全表扫描 dwd层：去空、过滤无意义数据、将用户行为和业务表一致性处理、脱敏、压缩、列式存储 dws层：统计各个主题当天行为 dwt层：以分析的主题对象为建模驱动，基于上层的应用和产品的指标需求，构建主题对象的全量宽表，是累计的度量值 ods层：对各个指标分析

维度建模：减少关联关系建模：完整性，准确性，减少冗余，节省存储空间

星型模型：效率高，方便查询雪花模型：冗余小、规范

事务是一组不可再分割的操作集合

shuffle，yarn，hdfs读写流程

map方法之后，数据首先进入分区方法，标记好分区之后，数据写入环形缓冲区中，环形缓冲区100M，在缓冲区内进行分区和分区内排序，快排，写到80%时，进行反向溢写，溢写会产生大量溢写文件，多个溢写文件采用分区内归并排序，形成大的溢写文件，可自定义combiner方法进行汇总操作，写到磁盘中等待拉取。 reduce task按照自己的分区号拉取各个 MapTask 机器上相应的结果分区数据，数据存到内存中，如果不够就存到硬盘中，然后归并排序， shuffle过程结束，进入reduce方法。

在这里插入图片描述

最少：map快排、归并、reduce归并三次

读

客户端向namenode请求下载文件
namenode获取第一块block的locations，同一个block有多个副本，按拓扑排序（远近），离客户端最近的排在前面
客户端会按照locations排序与对应的datanode连接，向datanode请求读数据
datanode向客户端传输数据
读完第一块，关闭datanode连接，重复，直到读完所有block，这些操作对客户端来说是透明的（也就是用户不需要知道下面都做了什么），客户端的角度看来只是读一个持续不断的流。
客户端组装所有block

写

客户端向namenode发送请求
namenode检查文件路径是否存在、是否重名、权限等
namenode向客户端相应可以发送 10.客户端把文件切块，块即packet（64k），写到发送队列data queue中，并询问namenode该写在哪
namenode查询datenode信息，规划block存储位置
namenode返回可以存储的ip列表，即pipeline管道
客户端向管道第一个发送数据，第一个向第二个发送数据，以此类推。
容错机制：还有一个确认队列ack queue，也是由packet构成，等到所有pipeline中所有的datanode都表示已经收到的时候，ack queue才会删除对应的packet。当某个datanode发生错误的时候，采用以下几步：
1. pipeline 被关闭掉；
2. 为了防止丢包 ack queue 里的 packet 会同步到 data queue 里；
3. 把产生错误的 datanode 上当前在写但未完成的 block 删掉；
1. block 剩下的部分被写到剩下的两个正常的 datanode 中；
2. namenode 找到另外的 datanode 去创建这个块的复制（也是三个的）。当然，这些操作对客户端来说是无感知的（透明性）。
关闭写入流

map任务结束后通知MapReduceApplicationMaster，reduce定期向MRAM询问map输出与主机的对应关系。直到获得所有输出位置。

shuffle排序，按字典顺序排序的，目的是把相同的的key可以提前一步放到一起。

shuffle就是把key相同的东西放到一起去，其实不用sort(排序)也能shuffle，那为什么要sort排序呢？

sort是为了通过外排(外部排序)降低内存的使用量：因为reduce阶段需要分组，将key相同的放在一起进行规约，使用了两种算法：hashmap和sort，如果在reduce阶段sort排序(内部排序)，太消耗内存，而map阶段的输出是要溢写到磁盘的，在磁盘中外排可以对任意数据量分组(只要磁盘够大)，所以，map端排序(shuffle阶段)，是为了减轻reduce端排序的压力。

数据倾斜，小文件，优化，hql->mr，四个排序

全局排序，分组排序

sort by ：reduce前

a表加随机数，b表扩容，聚合

sql->AST->query block->operator tree->优化->mr任务树->优化->提交

hiveSQL被parser（解析）成AST（抽象语法树） AST转化成query block（查询块） query block被转化成operator tree（操作树）优化operator tree operator tree转化成mr任务优化成最终的mr任务

mapjoin 行列过滤列式存储分区设置map、reduce个数小文件：jvm重用、combiner、marge 开启combiner 压缩换引擎

开启combiner jvm重用两个mr（marge）

1、数据倾斜的原因：（1）、key分布不均匀。（2）、业务数据本身的原因。（3）、建表考虑不周。（4）、某些SQL本身就有数据倾斜。

2、如何避免数据的倾斜：

（1）给key一个随机的值，打散key。

（2）Hive中的参数调节： ①hive.map.aggr = true---------------作用Map 端部分聚合，相当于Combiner ②hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

（3）SQL语句的调节：1、选用join key分布最均匀的表作为驱动表。2、大小表join的时候，让维度较小的表先进内存。3、大表join的时候，把空值的key变成一个字符串加上一个随机数，把倾斜的数据分到不同的reduce上。4、count distinct大量相同特殊值。

TEXTFILE, Hive数据表的默认格式，存储方式：行存储。可以使用Gzip压缩算法，但压缩后的文件不支持split 在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。 SEQUENCEFILE 压缩数据文件可以节省磁盘空间，但Hadoop中有些原生压缩文件的缺点之一就是不支持分割。支持分割的文件可以并行的有多个mapper程序处理大数据文件，大多数文件不支持可分割是因为这些文件只能从头开始读。Sequence File是可分割的文件格式，支持Hadoop的block级压缩。 Hadoop API提供的一种二进制文件，以key-value的形式序列化到文件中。存储方式：行存储。 sequencefile支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，RECORD是默认选项，通常BLOCK会带来较RECORD更好的压缩性能。优势是文件和hadoop api中的MapFile是相互兼容的 RCFILE 存储方式：数据按行分块，每块按列存储。结合了行存储和列存储的优点： RCFile 保证同一行的数据位于同一节点，因此元组重构的开销很低像列存储一样，RCFile 能够利用列维度的数据压缩，并且能跳过不必要的列读取数据追加：RCFile不支持任意方式的数据写操作，仅提供一种追加接口，这是因为底层的 HDFS当前仅仅支持数据追加写文件尾部。行组大小：行组变大有助于提高数据压缩的效率，但是可能会损害数据的读取性能，因为这样增加了 Lazy 解压性能的消耗。而且行组变大会占用更多的内存，这会影响并发执行的其他MR作业。考虑到存储空间和查询效率两个方面，Facebook 选择 4MB 作为默认的行组大小，当然也允许用户自行选择参数进行配置。 ORCFILE 存储方式：数据按行分块，每块按照列存储。压缩快，快速列存取。效率比rcfile高，是rcfile的改良版本。

压缩工具对比 在这里插入图片描述

一、常用日期函数

unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp(); select unix_timestamp(“2020-10-28”,‘yyyy-MM-dd’);
from_unixtime：将时间戳转为日期格式 select from_unixtime(1603843200);
current_date：当前日期 select current_date;
current_timestamp：当前的日期加时间 select current_timestamp;
to_date：抽取日期部分 select to_date(‘2020-10-28 12:12:12’);
year：获取年 select year(‘2020-10-28 12:12:12’);
month：获取月 select month(‘2020-10-28 12:12:12’);
day：获取日 select day(‘2020-10-28 12:12:12’);
hour：获取时 select hour(‘2020-10-28 12:13:14’);
minute：获取分 select minute(‘2020-10-28 12:13:14’);
second：获取秒 select second(‘2020-10-28 12:13:14’);
weekofyear：当前时间是一年中的第几周 select weekofyear(‘2020-10-28 12:12:12’);
dayofmonth：当前时间是一个月中的第几天 select dayofmonth(‘2020-10-28 12:12:12’);
months_between：两个日期间的月份 select months_between(‘2020-04-01’,‘2020-10-28’);
add_months：日期加减月 select add_months(‘2020-10-28’,-3);
datediff：两个日期相差的天数 select datediff(‘2020-11-04’,‘2020-10-28’);
date_add：日期加天数 select date_add(‘2020-10-28’,4);
date_sub：日期减天数 select date_sub(‘2020-10-28’,-4);
last_day：日期的当月的最后一天 select last_day(‘2020-02-30’);
date_format(): 格式化日期 select date_format(‘2020-10-28 12:12:12’,‘yyyy/MM/dd HH:mm:ss’);

二、常用取整函数 21. round：四舍五入 select round(3.14); select round(3.54);

ceil：向上取整 select ceil(3.14); select ceil(3.54);

floor：向下取整 23. select floor(3.14); select floor(3.54);

三、常用字符串操作函数 24. upper：转大写 select upper(‘low’);

lower：转小写 select lower(‘low’);
length：长度 select length(“atguigu”);
trim：前后去空格 select trim(" atguigu ");
lpad：向左补齐，到指定长度 select lpad(‘atguigu’,9,‘g’);
rpad：向右补齐，到指定长度 select rpad(‘atguigu’,9,‘g’);
regexp_replace：使用正则表达式匹配目标字符串，匹配成功后替换！ SELECT regexp_replace(‘2020/10/25’, ‘/’, ‘-’);

四、集合操作 31. size：集合中元素的个数 select size(friends) from test3;

map_keys：返回map中的key select map_keys(children) from test3;
map_values: 返回map中的value select map_values(children) from test3;
array_contains: 判断array中是否包含某个元素 select array_contains(friends,‘bingbing’) from test3;
sort_array：将array中的元素排序 select sort_array(friends) from test3;

五、多维分析 36. grouping sets:多维分析

Array，Map,Struct

在这里插入图片描述

封装：属性方法私有化继承：相同的属性方法提取出来多态：同一个对象，在不同时刻表现出来的不同状态。

多态 (1)同一个对象，在不同时刻表现出来的不同状态。 (2)前提： A:有继承或者实现关系。 B:有方法的重写。 C:有父类(接口)的引用指向子类对象。 (3)多态中的成员使用特点： Fu fz = new Zi(); 多态时，所有表现形式都是父类的表现形式，只有调用方法时，运行的是子类重写的方法 A:成员变量编译看左边，运行看左边。 B:成员方法编译看左边，运行看右边。 (4)多态中的转型： A:向上转型把子类对象赋值给父类(接口)的引用 B:向下转型把父类(接口)的引用强制转换成子类对象 (5)多态的好处及弊端： A:好处提高了程序可维护性和可扩展性。 B:弊端不能使用子类特有内容。要想使用，要么向下转型，要么重新创建子类对象。 instanceof 关键字:用于引用数据类型判断格式：对象名 instanceof 类名返回值： true, false 作用：判断某个对象是否属于某种数据类型

多态的例子 在这里插入图片描述 String.valueOf()可以将对象转化为字符串，它的入参是Object，设想一下，如果没有多态，那么String.valueOf()函数内部就需要判断入参Object对象到底是Integer，还是HashMap，还是Thread，还是用户自定义类等等，然后调用对应类的toString()，这显然十分麻烦，而这个问题用多态就可以解决，因为所有类都默认继承了Object类，所以只需要一句obj.toString()就可以，无需关心入参到底是Object的哪个子类，在运行时用户传入对象后jvm会判断到底该调用哪个类的toString()方法。

HashMap的底层结构是Node的数组 TreeMap的底层是一个Entry，他的实现是一个红黑树，方便用来遍历和搜索。

hashmap不排序 treemap排序

HashMap可以允许一个null key和多个null value。 TreeMap不允许null key，但是可以允许多个null value。

HashMap的底层是Array，所以HashMap在添加，查找，删除等方法上面速度会非常快。TreeMap的底层是一个Tree结构，在添加和删除节点的时候会进行重排序，所以速度会比较慢。

HashMap因为要保存一个Array，所以会造成空间的浪费， TreeMap只保存要保持的节点，所以占用的空间比较小。

HashMap如果出现hash冲突的话，效率会变差，不过在java 8进行TreeNode转换之后，效率有很大的提升。

在这里插入图片描述

抽象类（抽象类就是为了被继承）：抽象类中的抽象方法必须定义为protected或者public，因为如果我们将其定义为私有的话，就无法被子类继承（其实也不是不好继承，而是不好调用）；抽象类中的抽象方法如果没有在某一个子类中实现，那这个子类也要声明为抽象类；抽象类是不可以实例化的；一个类只能继承一个抽象类接口（为了方法而生）：接口中可以有变量和方法，但是接口中的变量是被强制置为public static final 的，并且只能为该类型；接口中的方法，能且只能是public abstract方法，而且对于接口中的方法都不能有具体实现；一个列可以多继承接口

关于java面试题，请看https://www.bilibili.com/video/BV12b4y167Mb

快排、归并、堆在这里插入图片描述

以上就是本篇文章【大数据面试题（校招）】的全部内容了，欢迎阅览！文章地址：http://changmeillh.xhstdz.com/quote/77654.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://changmeillh.xhstdz.com/mobile/ , 查看更多