从Hive中的stored as file_foramt看hive调优

Veröffentlicht am 2018-05-30 | Bearbeitet am 2019-05-13 | in Hive

一、行式数据库和列式数据库的对比

1、存储比较

行式数据库存储在hdfs上式按行进行存储的，一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储，一个block可能有一列或多列数据。

2、压缩比较

Spark之序列化在生产中的应用

Veröffentlicht am 2018-05-29 | Bearbeitet am 2019-05-13 | in Spark Core

序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢，或者消耗大量的字节格式化，会大大降低计算性能。在生产中，我们通常会创建大量的自定义实体对象，这些对象在网络传输时需要序列化，而一种好的序列化方式可以让数据有更好的压缩比，从而提升网络传输速率，提高spark作业的运行速度。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡，所以提供2种序列化的选择。

若泽数据带你随时了解业界面试题，随时跳高薪

Veröffentlicht am 2018-05-25 | Bearbeitet am 2019-06-11 | in 面试真题

链家(一面，二面)

0.自我介绍

1.封装继承多态概念

2.mvc设计思想

3.线程池,看过源码吗

一次跳槽经历（阿里/美团/头条/网易/有赞...)

Veröffentlicht am 2018-05-24 | Bearbeitet am 2019-06-11 | in 面试真题

为啥跳槽

每次说因为生活成本的时候面试官都会很惊奇，难道有我们这里贵？好想直接给出下面这张图，厦门的房价真的好贵好贵好贵。。。
enter description here

Hive中自定义UDAF函数生产小案例

Veröffentlicht am 2018-05-23 | Bearbeitet am 2019-04-26 | in Hive

一、UDAF 回顾

1.定义：UDAF(User Defined Aggregation Funcation ) 用户自定义聚类方法，和group by联合使用，接受多个输入数据行，并产生一个输出数据行。
2.Hive有两种UDAF：简单和通用
简单：利用抽象类UDAF和UDAFEvaluator，使用Java反射导致性能损失，且有些特性不能使用，如可变长度参数列表。
通用：利用接口GenericUDAFResolver2（或抽象类AbstractGenericUDAFResolver）和抽象类GenericUDAFEvaluator，可以使用所有功能，但比较复杂，不直观。
3.一个计算函数必须实现的5个方法的具体含义如下：
init()：主要是负责初始化计算函数并且重设其内部状态，一般就是重设其内部字段。一般在静态类中定义一个内部字段来存放最终的结果。
iterate()：每一次对一个新值进行聚集计算时候都会调用该方法，计算函数会根据聚集计算结果更新内部状态。当输入值合法或者正确计算了，则就返回true。
terminatePartial()：Hive需要部分聚集结果的时候会调用该方法，必须要返回一个封装了聚集计算当前状态的对象。
merge()：Hive进行合并一个部分聚集和另一个部分聚集的时候会调用该方法。
terminate()：Hive最终聚集结果的时候就会调用该方法。计算函数需要把状态作为一个值返回给用户。
二、需求
使用UDAF简单方式实现统计区域产品用户访问排名