生产开发必用-Spark RDD转DataFrame的两种方法

Veröffentlicht am 2018-06-14 | Bearbeitet am 2019-05-13 | in Spark Core

本篇文章将介绍Spark SQL中的DataFrame，关于DataFrame的介绍可以参考:
https://blog.csdn.net/lemonzhaotao/article/details/80211231

在本篇文章中，将介绍RDD转换为DataFrame的2种方式

官网之RDD转DF:
http://spark.apache.org/docs/latest/sql-programming-guide.html#interoperating-with-rdds

最前沿！带你读Structured Streaming重量级论文！

Veröffentlicht am 2018-06-14 | Bearbeitet am 2019-05-15 | in Spark Streaming

Java可扩展线程池之ThreadPoolExecutor

Veröffentlicht am 2018-06-13 | Bearbeitet am 2019-05-15 | in Java

1、ThreadPoolExecutor

我们知道ThreadPoolExecutor是可扩展的,它提供了几个可以在子类中改写的空方法如下：

1
2
3

protected void beforeExecute(Thread t, Runnable r) { }
protected void beforeExecute(Thread t, Runnable r) { }  
protected void terminated() { }

你大爷永远是你大爷，RDD血缘关系源码详解！

Veröffentlicht am 2018-06-13 | Bearbeitet am 2019-05-13 | in Spark Core

一、RDD的依赖关系

RDD的依赖关系分为两类：宽依赖和窄依赖。我们可以这样认为：

（1）窄依赖：每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。
（2）宽依赖：每个parent RDD partition 被多个 child RDD 的partition 使用。

窄依赖每个 child RDD 的 partition 的生成操作都是可以并行的，而宽依赖则需要所有的 parent RDD partition shuffle 结果得到后再进行。

Apache Spark 技术团队开源机器学习平台 MLflow

Veröffentlicht am 2018-06-12 | Bearbeitet am 2019-05-13 | in Spark MLlib

近日，来自 Databricks 的 Matei Zaharia 宣布推出开源机器学习平台 MLflow 。Matei Zaharia 是 Apache Spark 和 Apache Mesos 的核心作者，也是 Databrick 的首席技术专家。Databrick 是由 Apache Spark 技术团队所创立的商业化公司。MLflow 目前已处于早期测试阶段，开发者可下载源码体验。

Spark SQL 之外部数据源如何成为在企业开发中的一把利器

Veröffentlicht am 2018-06-06 | Bearbeitet am 2019-05-13 | in Spark SQL

1 概述

1.Spark1.2中，Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口，来让开发者可以实现。使得Spark SQL可以加载任何地方的数据，例如mysql，hive，hdfs，hbase等，而且支持很多种格式如json, parquet, avro, csv格式。我们可以开发出任意的外部数据源来连接到Spark SQL，然后我们就可以通过外部数据源API来进行操作。
2.我们通过外部数据源API读取各种格式的数据，会得到一个DataFrame，这是我们熟悉的方式啊，就可以使用DataFrame的API或者SQL的API进行操作哈。
3.外部数据源的API可以自动做一些列的裁剪，什么叫列的裁剪，假如一个user表有id,name,age,gender4个列，在做select的时候你只需要id,name这两列，那么其他列会通过底层的优化去给我们裁剪掉。
4.保存操作可以选择使用SaveMode，指定如何保存现有数据（如果存在）。

SparkStreaming 状态管理函数的选择比较

Veröffentlicht am 2018-06-06 | Bearbeitet am 2019-05-13 | in Spark Streaming

Linux系统重要参数调优，你知道吗

Veröffentlicht am 2018-06-04 | Bearbeitet am 2019-05-13 | in Linux

当前会话生效

ulimit -u -> 查看当前最大进程数
ulimit -n ->查看当前最大文件数
ulimit -u xxx -> 修改当前最大进程数为xxx
ulimit -n xxx -> 修改当前最大文件数为xxx

永久生效

1.vi /etc/security/limits.conf，添加如下的行

soft noproc 11000
hard noproc 11000
soft nofile 4100
hard nofile 4100

Spark动态内存管理源码解析！

Veröffentlicht am 2018-06-03 | Bearbeitet am 2019-05-13 | in Spark Core

一、Spark内存管理模式

Spark有两种内存管理模式，静态内存管理(Static MemoryManager)和动态（统一）内存管理（Unified MemoryManager）。动态内存管理从Spark1.6开始引入，在SparkEnv.scala中的源码可以看到，Spark目前默认采用动态内存管理模式，若将spark.memory.useLegacyMode设置为true，则会改为采用静态内存管理。

// SparkEnv.scala
    val useLegacyMemoryManager = conf.getBoolean("spark.memory.useLegacyMode", false)
    val memoryManager: MemoryManager =
      if (useLegacyMemoryManager) {
        new StaticMemoryManager(conf, numUsableCores)
      } else {
        UnifiedMemoryManager(conf, numUsableCores)
      }

若泽大数据-零基础学员深圳某司高薪面试题

Veröffentlicht am 2018-05-31 | Bearbeitet am 2019-06-11 | in 面试真题