大数据之实时数据源同步中间件--生产上Canal与Maxwell颠峰对决

Veröffentlicht am 2018-05-14 | Bearbeitet am 2019-07-18 | in 实时同步中间件

一.数据源同步中间件：

Canal
https://github.com/alibaba/canal
https://github.com/Hackeruncle/syncClient

Maxwell
https://github.com/zendesk/maxwell
maxwell

Spark on YARN-Cluster和YARN-Client的区别

Veröffentlicht am 2018-05-12 | Bearbeitet am 2019-06-01 | in Spark Other

一. YARN-Cluster和YARN-Client的区别

（1）SparkContext初始化不同，这也导致了Driver所在位置的不同，YarnCluster的Driver是在集群的某一台NM上，但是Yarn-Client就是在driver所在的机器上；
（2）而Driver会和Executors进行通信，这也导致了Yarn_cluster在提交App之后可以关闭Client，而Yarn-Client不可以；
（3）最后再来说应用场景，Yarn-Cluster适合生产环境，Yarn-Client适合交互和调试。

生产改造Spark1.6源代码，create table语法支持Oracle列表分区

Veröffentlicht am 2018-05-08 | Bearbeitet am 2019-06-01 | in Spark Other

1.需求

通过Spark SQL JDBC 方法，抽取Oracle表数据。

2.问题

大数据开发人员反映，使用效果上列表分区优于散列分区。但Spark SQL JDBC方法只支持数字类型分区，而业务表的列表分区字段是个字符串。目前Oracle表使用列表分区，对省级代码分区。
参考 http://spark.apache.org/docs/1.6.2/sql-programming-guide.html#jdbc-to-other-databases

生产中Hive静态和动态分区表，该怎样抉择呢？

Veröffentlicht am 2018-05-06 | Bearbeitet am 2019-05-13 | in Hive

一.需求

按照不同部门作为分区，导数据到目标表

二.使用静态分区表来完成

71.创建静态分区表：

create table emp_static_partition(
empno int, 
ename string, 
job string, 
mgr int, 
hiredate string, 
sal double, 
comm double)
PARTITIONED BY(deptno int)
row format delimited fields terminated by '\t';

2.插入数据：

1 2	hive>insert into table emp_static_partition partition(deptno=10) select empno , ename , job , mgr , hiredate , sal , comm from emp where deptno=10;

5min掌握，Hive的HiveServer2 和JDBC客户端&代码的生产使用

Veröffentlicht am 2018-05-04 | Bearbeitet am 2019-05-13 | in Hive

2min快速了解，Hive内部表和外部表

Veröffentlicht am 2018-05-01 | Bearbeitet am 2019-05-05 | in Hive

在了解内部表和外部表区别前，
我们需要先了解一下Hive架构 ：

Hive架构

谈谈我和大数据的情缘及入门

Veröffentlicht am 2018-05-01 | Bearbeitet am 2019-06-11 | in 有缘大数据

当年我是做C#+Java软件开发，然后考取OCP来了上海，立志要做一名DBA。只记得当年试用期刚过时，阴差阳错轮到我负责公司的大数据平台这块，刚开始很痛苦，一个陌生的行业，一个讨论的小伙伴都没有，一份现成资料都没有，心情焦虑。后来我调整心态，从DB转移到对大数据的研究，决定啃下这块硬骨头，把它嚼碎，把它消化吸收。

由于当时公司都是CDH环境，刚开始安装卡了很久都过不去，后面选择在线安装，很慢，有时需要1天。后来安装HDFS ,YARN,HIVE组件，不过对它们不理解，不明白，有时很困惑。这样的过程大概持续三个月了。