若泽大数据 www.ruozedata.com

ruozedata


  • 主页

  • 归档

  • 分类

  • 标签

  • 发展历史

  • Suche

实时数仓之Maxwell读取MySQL binlog日志

Veröffentlicht am 2019-03-22 | Bearbeitet am 2019-07-09 | in 实时同步中间件
Weiterlesen »

别有洞天之Hive作业无法申请资源

Veröffentlicht am 2019-03-21 | Bearbeitet am 2019-07-09 | in Hive
Weiterlesen »

Kafka+SparkStreaming+MySQL经典案例源代码

Veröffentlicht am 2019-03-18 | Bearbeitet am 2019-06-20 | in Spark Streaming
Weiterlesen »

捷报:高级班学员年薪37.4W的offer及3家面试题

Veröffentlicht am 2019-03-14 | Bearbeitet am 2019-06-18 | in 高薪就业

我们不做过多宣传,因为我们是若泽数据,企业在职。

(现在其他机构也效仿我们说,企业在职,哎,很无语了)

直接看学员offer及刚出炉的面试题,难吗?
Weiterlesen »

捷报:刚出炉年薪30w的offer和面试题

Veröffentlicht am 2019-03-13 | Bearbeitet am 2019-06-18 | in 高薪就业

我们不做过多宣传,因为我们是若泽数据,企业在职。

(现在其他机构也效仿我们说,企业在职,哎,很无语了)

直接看学员offer及刚出炉的面试题,难吗?
Weiterlesen »

生产Spark Executor Dead快速剖析

Veröffentlicht am 2019-03-12 | Bearbeitet am 2019-06-14 | in Spark Other

问题现象

通过Spark UI查看Executors,发现存在Executor Dead的情况

enter description here

进一步查看dead Executor stderr日志,发现如下报错信息:

enter description here

解决过程

Weiterlesen »

生产Spark Streaming 黑名单过滤案例

Veröffentlicht am 2019-03-08 | Bearbeitet am 2019-06-14 | in Spark Streaming

测试数据(通过Socket传入):

1
2
3
20180808,zs
20180808,ls
20180808,ww

黑名单列表(生产存在表):

1
2
zs
ls

思路

  1. 原始日志可以通过Streaming直接读取成一个DStream
  2. 名单通过RDD来模拟一份

Weiterlesen »

刚出炉的3家大数据面试题(含高级),你会吗?

Veröffentlicht am 2019-03-07 | Bearbeitet am 2019-06-14 | in 面试真题
Weiterlesen »

SparkShuffle详解剖析

Veröffentlicht am 2019-03-06 | Bearbeitet am 2019-06-14 | in Spark Other

HashShuffle

概述

所谓Shuffle就是将不同节点上相同的Key拉取到一个节点的过程。这之中涉及到各种IO,所以执行时间势必会较长,Spark的Shuffle在1.2之前默认的计算引擎是HashShuffleManager,不过HashShuffleManager有一个十分严重的弊端,就是会产生大量的中间文件。在1.2之后默认Shuffle改为SortShuffleManager,相对于之前,在每个Task虽然也会产生大量中间文件,但是最后会将所有的临时文件合并(merge)成一个文件。因此Shuffle read只需要读取时,根据索引拿到每个磁盘的部分数据就可以了

Weiterlesen »

最佳实践之Spark写入Hfile经典案例

Veröffentlicht am 2019-03-01 | Bearbeitet am 2019-06-14 | in Spark Other
本文由小伙伴提供

将HDFS上的数据解析出来,然后通过hfile方式批量写入Hbase(需要多列写入) 写⼊数据的关键api:

Weiterlesen »
1…678…16

ruozedata

若泽数据优秀博客汇总
155 Artikel
31 Kategorien
74 schlagwörter
RSS
GitHub B站学习视频 腾讯课堂学习视频 官网
|
若泽数据
|