若泽大数据 www.ruozedata.com

ruozedata


  • 主页

  • 归档

  • 分类

  • 标签

  • 发展历史

  • Suche

大数据之实时数据源同步中间件--生产上Canal与Maxwell颠峰对决

Veröffentlicht am 2018-05-14 | Bearbeitet am 2019-07-18 | in 实时同步中间件
一.数据源同步中间件:

Canal
https://github.com/alibaba/canal
https://github.com/Hackeruncle/syncClient

Maxwell
https://github.com/zendesk/maxwell
maxwell

Weiterlesen »

Spark on YARN-Cluster和YARN-Client的区别

Veröffentlicht am 2018-05-12 | Bearbeitet am 2019-06-01 | in Spark Other
一. YARN-Cluster和YARN-Client的区别


(1)SparkContext初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client就是在driver所在的机器上;
(2)而Driver会和Executors进行通信,这也导致了Yarn_cluster在提交App之后可以关闭Client,而Yarn-Client不可以;
(3)最后再来说应用场景,Yarn-Cluster适合生产环境,Yarn-Client适合交互和调试。

Weiterlesen »

生产改造Spark1.6源代码,create table语法支持Oracle列表分区

Veröffentlicht am 2018-05-08 | Bearbeitet am 2019-06-01 | in Spark Other

1.需求

通过Spark SQL JDBC 方法,抽取Oracle表数据。

2.问题

大数据开发人员反映,使用效果上列表分区优于散列分区。但Spark SQL JDBC方法只支持数字类型分区,而业务表的列表分区字段是个字符串。目前Oracle表使用列表分区,对省级代码分 区。
参考 http://spark.apache.org/docs/1.6.2/sql-programming-guide.html#jdbc-to-other-databases

Weiterlesen »

生产中Hive静态和动态分区表,该怎样抉择呢?

Veröffentlicht am 2018-05-06 | Bearbeitet am 2019-05-13 | in Hive
一.需求

按照不同部门作为分区,导数据到目标表

二.使用静态分区表来完成

71.创建静态分区表:

1
2
3
4
5
6
7
8
9
10
create table emp_static_partition(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double)
PARTITIONED BY(deptno int)
row format delimited fields terminated by '\t';

2.插入数据:

1
2
hive>insert into table emp_static_partition partition(deptno=10)
select empno , ename , job , mgr , hiredate , sal , comm from emp where deptno=10;

Weiterlesen »

5min掌握,Hive的HiveServer2 和JDBC客户端&代码的生产使用

Veröffentlicht am 2018-05-04 | Bearbeitet am 2019-05-13 | in Hive


Weiterlesen »

2min快速了解,Hive内部表和外部表

Veröffentlicht am 2018-05-01 | Bearbeitet am 2019-05-05 | in Hive



在了解内部表和外部表区别前,
我们需要先了解一下Hive架构 :

Hive架构

Weiterlesen »

谈谈我和大数据的情缘及入门

Veröffentlicht am 2018-05-01 | Bearbeitet am 2019-06-11 | in 有缘大数据

 当年我是做C#+Java软件开发,然后考取OCP来了上海,立志要做一名DBA。只记得当年试用期刚过时,阴差阳错轮到我负责公司的大数据平台这块,刚开始很痛苦,一个陌生的行业,一个讨论的小伙伴都没有,一份现成资料都没有,心情焦虑。后来我调整心态,从DB转移到对大数据的研究,决定啃下这块硬骨头,把它嚼碎,把它消化吸收。

 由于当时公司都是CDH环境,刚开始安装卡了很久都过不去,后面选择在线安装,很慢,有时需要1天。后来安装HDFS ,YARN,HIVE组件,不过对它们不理解,不明白,有时很困惑。这样的过程大概持续三个月了。

Weiterlesen »

Hive自定义函数(UDF)的部署使用,你会吗?

Veröffentlicht am 2018-04-27 | Bearbeitet am 2019-05-13 | in Hive

Hive自定义函数(UDF)的部署使用,你会吗,三种方式!

Weiterlesen »

Hive自定义函数(UDF)的编程开发,你会吗?

Veröffentlicht am 2018-04-25 | Bearbeitet am 2019-04-24 | in Hive

本地开发环境:IntelliJ IDEA+Maven3.3.9

Weiterlesen »

Hive DDL,你真的了解吗?

Veröffentlicht am 2018-04-24 | Bearbeitet am 2019-05-13 | in Hive

若泽大数据,带你全面剖析Hive DDL!


Hive架构图

Weiterlesen »
1…13141516

ruozedata

若泽数据优秀博客汇总
155 Artikel
31 Kategorien
74 schlagwörter
RSS
GitHub B站学习视频 腾讯课堂学习视频 官网
|
若泽数据
|