若泽大数据 www.ruozedata.com

ruozedata


  • 主页

  • 归档

  • 分类

  • 标签

  • 发展历史

  • Suche

生产开发必用-Spark RDD转DataFrame的两种方法

Veröffentlicht am 2018-06-14 | Bearbeitet am 2019-05-13 | in Spark Core

本篇文章将介绍Spark SQL中的DataFrame,关于DataFrame的介绍可以参考:
https://blog.csdn.net/lemonzhaotao/article/details/80211231

在本篇文章中,将介绍RDD转换为DataFrame的2种方式

官网之RDD转DF:
http://spark.apache.org/docs/latest/sql-programming-guide.html#interoperating-with-rdds

Weiterlesen »

最前沿!带你读Structured Streaming重量级论文!

Veröffentlicht am 2018-06-14 | Bearbeitet am 2019-05-15 | in Spark Streaming
Weiterlesen »

Java可扩展线程池之ThreadPoolExecutor

Veröffentlicht am 2018-06-13 | Bearbeitet am 2019-05-15 | in Java

1、ThreadPoolExecutor

我们知道ThreadPoolExecutor是可扩展的,它提供了几个可以在子类中改写的空方法如下:

1
2
3
protected void beforeExecute(Thread t, Runnable r) { }
protected void beforeExecute(Thread t, Runnable r) { }
protected void terminated() { }

Weiterlesen »

你大爷永远是你大爷,RDD血缘关系源码详解!

Veröffentlicht am 2018-06-13 | Bearbeitet am 2019-05-13 | in Spark Core

一、RDD的依赖关系

RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为:

  • (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。

  • (2)宽依赖:每个parent RDD partition 被多个 child RDD 的partition 使用。

窄依赖每个 child RDD 的 partition 的生成操作都是可以并行的,而宽依赖则需要所有的 parent RDD partition shuffle 结果得到后再进行。

Weiterlesen »

Apache Spark 技术团队开源机器学习平台 MLflow

Veröffentlicht am 2018-06-12 | Bearbeitet am 2019-05-13 | in Spark MLlib

近日,来自 Databricks 的 Matei Zaharia 宣布推出开源机器学习平台 MLflow 。Matei Zaharia 是 Apache Spark 和 Apache Mesos 的核心作者,也是 Databrick 的首席技术专家。Databrick 是由 Apache Spark 技术团队所创立的商业化公司。MLflow 目前已处于早期测试阶段,开发者可下载源码体验。

Weiterlesen »

Spark SQL 之外部数据源如何成为在企业开发中的一把利器

Veröffentlicht am 2018-06-06 | Bearbeitet am 2019-05-13 | in Spark SQL

1 概述

1.Spark1.2中,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。使得Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, avro, csv格式。我们可以开发出任意的外部数据源来连接到Spark SQL,然后我们就可以通过外部数据源API来进行操作。
2.我们通过外部数据源API读取各种格式的数据,会得到一个DataFrame,这是我们熟悉的方式啊,就可以使用DataFrame的API或者SQL的API进行操作哈。
3.外部数据源的API可以自动做一些列的裁剪,什么叫列的裁剪,假如一个user表有id,name,age,gender4个列,在做select的时候你只需要id,name这两列,那么其他列会通过底层的优化去给我们裁剪掉。
4.保存操作可以选择使用SaveMode,指定如何保存现有数据(如果存在)。

Weiterlesen »

SparkStreaming 状态管理函数的选择比较

Veröffentlicht am 2018-06-06 | Bearbeitet am 2019-05-13 | in Spark Streaming
Weiterlesen »

Linux系统重要参数调优,你知道吗

Veröffentlicht am 2018-06-04 | Bearbeitet am 2019-05-13 | in Linux

当前会话生效

ulimit -u -> 查看当前最大进程数
ulimit -n ->查看当前最大文件数
ulimit -u xxx -> 修改当前最大进程数为xxx
ulimit -n xxx -> 修改当前最大文件数为xxx

永久生效

1.vi /etc/security/limits.conf,添加如下的行

  • soft noproc 11000
  • hard noproc 11000
  • soft nofile 4100
  • hard nofile 4100
Weiterlesen »

Spark动态内存管理源码解析!

Veröffentlicht am 2018-06-03 | Bearbeitet am 2019-05-13 | in Spark Core

一、Spark内存管理模式

Spark有两种内存管理模式,静态内存管理(Static MemoryManager)和动态(统一)内存管理(Unified MemoryManager)。动态内存管理从Spark1.6开始引入,在SparkEnv.scala中的源码可以看到,Spark目前默认采用动态内存管理模式,若将spark.memory.useLegacyMode设置为true,则会改为采用静态内存管理。

1
2
3
4
5
6
7
8
// SparkEnv.scala
val useLegacyMemoryManager = conf.getBoolean("spark.memory.useLegacyMode", false)
val memoryManager: MemoryManager =
if (useLegacyMemoryManager) {
new StaticMemoryManager(conf, numUsableCores)
} else {
UnifiedMemoryManager(conf, numUsableCores)
}

Weiterlesen »

若泽大数据-零基础学员深圳某司高薪面试题

Veröffentlicht am 2018-05-31 | Bearbeitet am 2019-06-11 | in 面试真题
Weiterlesen »
1…111213…16

ruozedata

若泽数据优秀博客汇总
155 Artikel
31 Kategorien
74 schlagwörter
RSS
GitHub B站学习视频 腾讯课堂学习视频 官网
|
若泽数据
|