我司Kafka+Flink+MySQL生产完整案例代码

Veröffentlicht am 2018-12-20 | Bearbeitet am 2019-05-03 | in Flink

1.版本信息：

Flink Version:1.6.2
Kafka Version:0.9.0.0
MySQL Version:5.6.21

2.Kafka 消息样例及格式：[IP TIME URL STATU_CODE REFERER]

1	1.74.103.143 2018-12-20 18:12:00 "GET /class/130.html HTTP/1.1" 404 https://search.yahoo.com/search?p=Flink实战

Spark在携程的实践（二）

Veröffentlicht am 2018-12-16 | Bearbeitet am 2019-06-01 | in Spark Other

以下内容来自第三届携程大数据沙龙

七、遇到的问题

orc split

Spark读取Hive表用的各个文件格式的InuptFormat，计算读取表需要的task数量依赖于InputFormat#getSplits
由于大部分表的存储格式主要使用的是orc，当一个orc文件超过256MB，split算法并行去读取orc元数据，有时候Driver内存飙升，OOM crash，Full GC导致network timeout，spark context stop
Hive读这些大表为何没有问题？因为Hive默认使用的是CombineHiveInputFormat，split是基于文件大小的。
Spark也需要实现类似于Hive的CombineInputFormat，还能解决小文件过多导致提交task数量过多的问题。
Executor Container killed
Executor : Container killed by YARN for exceeding memory limits. 13.9 GB of 12 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

Spark在携程的实践（一）

Veröffentlicht am 2018-12-09 | Bearbeitet am 2019-06-01 | in Spark Other

代码 | Spark读取mongoDB数据写入Hive普通表和分区表

Veröffentlicht am 2018-11-20 | Bearbeitet am 2019-06-01 | in Spark Other

最全的Flink部署及开发案例(KafkaSource+SinkToMySQL)

Veröffentlicht am 2018-11-10 | Bearbeitet am 2019-05-03 | in Flink

1.下载Flink安装包

flink下载地址

https://archive.apache.org/dist/flink/flink-1.5.0/

因为例子不需要hadoop，下载flink-1.5.0-bin-scala_2.11.tgz即可

上传至机器的/opt目录下

19生产预警平台项目之sparkdemo.jar运行在yarn上过程

Veröffentlicht am 2018-09-28 | Bearbeitet am 2019-06-13 | in 生产预警平台项目

18Spark on Yarn配置日志Web UI(HistoryServer服务)

Veröffentlicht am 2018-09-26 | Bearbeitet am 2019-06-12 | in 生产预警平台项目

1.进入spark目录和配置文件

1 2	[root@sht-sgmhadoopnn-01 ~]# cd /root/learnproject/app/spark/conf [root@sht-sgmhadoopnn-01 conf]# cp spark-defaults.conf.template spark-defaults.conf

2.创建spark-history的存储日志路径为hdfs上(当然也可以在linux文件系统上)

17生产预警平台项目之使用IDEA将工程Build成jar包

Veröffentlicht am 2018-09-25 | Bearbeitet am 2019-06-10 | in 生产预警平台项目

16生产预警平台项目之grafana-4.1.1 Install和新建日志分析的DashBoard

Veröffentlicht am 2018-09-19 | Bearbeitet am 2019-06-10 | in 生产预警平台项目

15生产预警平台项目之基于Spark Streaming+Saprk SQL开发OnLineLogAanlysis2

Veröffentlicht am 2018-09-18 | Bearbeitet am 2019-06-08 | in 生产预警平台项目