若泽大数据 www.ruozedata.com

ruozedata


  • 主页

  • 归档

  • 分类

  • 标签

  • 发展历史

  • Suche

我司Kafka+Flink+MySQL生产完整案例代码

Veröffentlicht am 2018-12-20 | Bearbeitet am 2019-05-03 | in Flink

1.版本信息:

Flink Version:1.6.2
Kafka Version:0.9.0.0
MySQL Version:5.6.21

2.Kafka 消息样例及格式:[IP TIME URL STATU_CODE REFERER]
1
1.74.103.143    2018-12-20 18:12:00  "GET /class/130.html HTTP/1.1"     404 https://search.yahoo.com/search?p=Flink实战
Weiterlesen »

Spark在携程的实践(二)

Veröffentlicht am 2018-12-16 | Bearbeitet am 2019-06-01 | in Spark Other

以下内容来自第三届携程大数据沙龙

七、遇到的问题

orc split

Spark读取Hive表用的各个文件格式的InuptFormat,计算读取表需要的task数量依赖于InputFormat#getSplits
由于大部分表的存储格式主要使用的是orc,当一个orc文件超过256MB,split算法并行去读取orc元数据,有时候Driver内存飙升,OOM crash,Full GC导致network timeout,spark context stop
Hive读这些大表为何没有问题?因为Hive默认使用的是CombineHiveInputFormat,split是基于文件大小的。
Spark也需要实现类似于Hive的CombineInputFormat,还能解决小文件过多导致提交task数量过多的问题。
Executor Container killed
Executor : Container killed by YARN for exceeding memory limits. 13.9 GB of 12 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

Weiterlesen »

Spark在携程的实践(一)

Veröffentlicht am 2018-12-09 | Bearbeitet am 2019-06-01 | in Spark Other
Weiterlesen »

代码 | Spark读取mongoDB数据写入Hive普通表和分区表

Veröffentlicht am 2018-11-20 | Bearbeitet am 2019-06-01 | in Spark Other
Weiterlesen »

最全的Flink部署及开发案例(KafkaSource+SinkToMySQL)

Veröffentlicht am 2018-11-10 | Bearbeitet am 2019-05-03 | in Flink
1.下载Flink安装包

flink下载地址

https://archive.apache.org/dist/flink/flink-1.5.0/

因为例子不需要hadoop,下载flink-1.5.0-bin-scala_2.11.tgz即可

上传至机器的/opt目录下

Weiterlesen »

19生产预警平台项目之sparkdemo.jar运行在yarn上过程

Veröffentlicht am 2018-09-28 | Bearbeitet am 2019-06-13 | in 生产预警平台项目
Weiterlesen »

18Spark on Yarn配置日志Web UI(HistoryServer服务)

Veröffentlicht am 2018-09-26 | Bearbeitet am 2019-06-12 | in 生产预警平台项目

1.进入spark目录和配置文件

1
2
[root@sht-sgmhadoopnn-01 ~]# cd /root/learnproject/app/spark/conf
[root@sht-sgmhadoopnn-01 conf]# cp spark-defaults.conf.template spark-defaults.conf

2.创建spark-history的存储日志路径为hdfs上(当然也可以在linux文件系统上)

Weiterlesen »

17生产预警平台项目之使用IDEA将工程Build成jar包

Veröffentlicht am 2018-09-25 | Bearbeitet am 2019-06-10 | in 生产预警平台项目
Weiterlesen »

16生产预警平台项目之grafana-4.1.1 Install和新建日志分析的DashBoard

Veröffentlicht am 2018-09-19 | Bearbeitet am 2019-06-10 | in 生产预警平台项目
Weiterlesen »

15生产预警平台项目之基于Spark Streaming+Saprk SQL开发OnLineLogAanlysis2

Veröffentlicht am 2018-09-18 | Bearbeitet am 2019-06-08 | in 生产预警平台项目
Weiterlesen »
1…8910…16

ruozedata

若泽数据优秀博客汇总
155 Artikel
31 Kategorien
74 schlagwörter
RSS
GitHub B站学习视频 腾讯课堂学习视频 官网
|
若泽数据
47865 | 86225