04生产预警平台项目之Flume Agent的3台收集+1台聚合到hdfs的搭建
Veröffentlicht am | Bearbeitet am | in 生产预警平台项目
【log收集】:
机器名称 服务名称 用户
flume-agent-01: namenode hdfs
flume-agent-02: datanode hdfs
flume-agent-03: datanode hdfs
【log聚合】:
机器名称 用户
sht-sgmhadoopcm-01(172.16.101.54) root
【sink到hdfs】:
hdfs://172.16.101.56:8020/testwjp/
02生产预警平台项目之Flume-1.7.0源码编译导入eclipse
Veröffentlicht am | Bearbeitet am | in 生产预警平台项目
这是一篇热腾腾的面经
Veröffentlicht am | Bearbeitet am | in 面试真题
伟梦:
1.主要还是项目?
基本上没问什么技术,我就说了一遍项目流程,
然后说几个优化点,比如上次讲的血案,我也顺带提了一下。
2.在大数据中,有没有什么是不足的,遇到过什么问题?
01生产预警平台项目之项目概述
Veröffentlicht am | Bearbeitet am | in 生产预警平台项目
spark中配置启用LZO压缩
Veröffentlicht am | Bearbeitet am | in Spark Other
Spark中配置启用LZO压缩,步骤如下:
一、spark-env.sh配置
1 | export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/app/hadoop-2.6.0-cdh5.7.0/lib/native |
二、spark-defaults.conf配置
1 | spark.driver.extraClassPath /app/hadoop-2.6.0-cdh5.7.0/share/hadoop/common/hadoop-lzo-0.4.19.jar |
注:指向编译生成lzo的jar包
HDFS之垃圾回收箱配置及使用
Veröffentlicht am | Bearbeitet am | in Hadoop
HDFS为每个用户创建一个回收站:
目录:/user/用户/.Trash/Current, 系统回收站都有一个周期,周期过后hdfs会彻底删除清空,周期内可以恢复。
Spark序列化,你了解吗
Veröffentlicht am | Bearbeitet am | in Spark Core
序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。
Spark Streaming 状态管理函数,你了解吗
Veröffentlicht am | Bearbeitet am | in Spark Streaming
Apache Spark和DL/AI结合,谁与争锋? 期待Spark3.0的到来!
Veröffentlicht am | Bearbeitet am | in Spark MLlib