若泽大数据 www.ruozedata.com

ruozedata


  • 主页

  • 归档

  • 分类

  • 标签

  • 发展历史

  • Suche

从Hive中的stored as file_foramt看hive调优

Veröffentlicht am 2018-05-30 | Bearbeitet am 2019-05-13 | in Hive

一、行式数据库和列式数据库的对比

1、存储比较

行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。

2、压缩比较
Weiterlesen »

Spark之序列化在生产中的应用

Veröffentlicht am 2018-05-29 | Bearbeitet am 2019-05-13 | in Spark Core

序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。在生产中,我们通常会创建大量的自定义实体对象,这些对象在网络传输时需要序列化,而一种好的序列化方式可以让数据有更好的压缩比,从而提升网络传输速率,提高spark作业的运行速度。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。

Weiterlesen »

若泽数据带你随时了解业界面试题,随时跳高薪

Veröffentlicht am 2018-05-25 | Bearbeitet am 2019-06-11 | in 面试真题

链家(一面,二面)

0.自我介绍

1.封装继承多态概念

2.mvc设计思想

3.线程池,看过源码吗

Weiterlesen »

一次跳槽经历(阿里/美团/头条/网易/有赞...)

Veröffentlicht am 2018-05-24 | Bearbeitet am 2019-06-11 | in 面试真题
为啥跳槽

每次说因为生活成本的时候面试官都会很惊奇,难道有我们这里贵?好想直接给出下面这张图,厦门的房价真的好贵好贵好贵。。。
enter description here

Weiterlesen »

Hive中自定义UDAF函数生产小案例

Veröffentlicht am 2018-05-23 | Bearbeitet am 2019-04-26 | in Hive

一、UDAF 回顾

  • 1.定义:UDAF(User Defined Aggregation Funcation ) 用户自定义聚类方法,和group by联合使用,接受多个输入数据行,并产生一个输出数据行。
  • 2.Hive有两种UDAF:简单和通用
    简单:利用抽象类UDAF和UDAFEvaluator,使用Java反射导致性能损失,且有些特性不能使用,如可变长度参数列表 。
    通用:利用接口GenericUDAFResolver2(或抽象类AbstractGenericUDAFResolver)和抽象类GenericUDAFEvaluator,可以使用所有功能,但比较复杂,不直观。
  • 3.一个计算函数必须实现的5个方法的具体含义如下:
    init():主要是负责初始化计算函数并且重设其内部状态,一般就是重设其内部字段。一般在静态类中定义一个内部字段来存放最终的结果。
    iterate():每一次对一个新值进行聚集计算时候都会调用该方法,计算函数会根据聚集计算结果更新内部状态。当输 入值合法或者正确计算了,则就返回true。
    terminatePartial():Hive需要部分聚集结果的时候会调用该方法,必须要返回一个封装了聚集计算当前状态的对象。
    merge():Hive进行合并一个部分聚集和另一个部分聚集的时候会调用该方法。
    terminate():Hive最终聚集结果的时候就会调用该方法。计算函数需要把状态作为一个值返回给用户。

    二、需求

    使用UDAF简单方式实现统计区域产品用户访问排名
Weiterlesen »

Spark History Server Web UI配置

Veröffentlicht am 2018-05-21 | Bearbeitet am 2019-06-01 | in Spark Other
1.进入spark目录和配置文件
1
2
[root@hadoop000 ~]# cd /opt/app/spark/conf
[root@hadoop000 conf]# cp spark-defaults.conf.template spark-defaults.conf
Weiterlesen »

Spark 基本概念

Veröffentlicht am 2018-05-21 | Bearbeitet am 2019-06-01 | in Spark Other

基于 Spark 构建的用户程序,包含了 一个driver 程序和集群上的 executors;(起了一个作业,就是一个Application)

Weiterlesen »

美味不用等大数据面试题(201804月)

Veröffentlicht am 2018-05-20 | Bearbeitet am 2019-06-11 | in 面试真题
1.若泽大数据线下班,某某某的小伙伴现场面试题截图:
Weiterlesen »

Spark不得不理解的重要概念——从源码角度看RDD

Veröffentlicht am 2018-05-20 | Bearbeitet am 2019-11-20 | in Spark Core

1.RDD是什么

Resilient Distributed Dataset(弹性分布式数据集),是一个能够并行操作不可变的分区元素的集合

2.RDD五大特性

Weiterlesen »

Spark RDD、DataFrame和DataSet的区别

Veröffentlicht am 2018-05-19 | Bearbeitet am 2019-05-13 | in Spark Core

在Spark中,RDD、DataFrame、Dataset是最常用的数据类型,今天谈谈他们的区别!
一 、共性

1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利

2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算。

3、三者都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出

4、三者都有partition的概念。

Weiterlesen »
1…121314…16

ruozedata

若泽数据优秀博客汇总
155 Artikel
31 Kategorien
74 schlagwörter
RSS
GitHub B站学习视频 腾讯课堂学习视频 官网
|
若泽数据
|