若泽大数据 www.ruozedata.com

ruozedata


  • 主页

  • 归档

  • 分类

  • 标签

  • 发展历史

  • Suche

生产SparkSQL如何读写本地外部数据源及排错

Veröffentlicht am 2019-03-01 | Bearbeitet am 2019-06-14 | in Spark SQL

https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了

enter description here

csv格式在spark2.0版本之后是内置的,2.0之前属于第三方数据源

Weiterlesen »

生产Spark开发读取云主机HDFS异常剖析流程

Veröffentlicht am 2019-02-26 | Bearbeitet am 2019-06-14 | in Spark Other

问题背景:

云主机是 Linux 环境,搭建 Hadoop 伪分布式

  • 公网 IP:139.198.xxx.xxx
  • 内网 IP:192.168.137.2
  • 主机名:hadoop001

本地的core-site.xml配置如下:

Weiterlesen »

捷报:高级班学员月薪22K和面试题

Veröffentlicht am 2019-02-25 | Bearbeitet am 2019-06-18 | in 高薪就业

我们不做过多宣传,

因为我们是若泽数据,企业在职培训。

直接看高级班学员offer及offer的刚出炉的面试题,3份面试题,难吗?
Weiterlesen »

Spark UI界面实现原理

Veröffentlicht am 2019-02-22 | Bearbeitet am 2019-06-14 | in Spark Other

当Spark程序在运行时,会提供一个Web页面查看Application运行状态信息。是否开启UI界面由参数spark.ui.enabled(默认为true)来确定。下面列出Spark UI一些相关配置参数,默认值,以及其作用。

enter description here

本文接下来分成两个部分,第一部分基于Spark-1.6.0的源码,结合第二部分的图片内容来描述UI界面在Spark中的实现方式。第二部分以实例展示Spark UI界面显示的内容。

Weiterlesen »

高级班学员高薪offer32w,你比他高吗?

Veröffentlicht am 2019-02-21 | Bearbeitet am 2019-06-18 | in 高薪就业

若泽数据,创办三年来,高级班课表已经更新V3版本,和老师的企业生产项目同步更新!官网课表已经更新!

官网 http://www.ruozedata.com

Weiterlesen »

Hue解决下载10万行的限制

Veröffentlicht am 2019-02-18 | Bearbeitet am 2019-07-18 | in 其他组件
Weiterlesen »

Spark监控报错javax.servlet.http.HttpServletRequest.isAsyncStarted

Veröffentlicht am 2019-02-16 | Bearbeitet am 2019-06-14 | in Spark Other

环境

  • Spark2.2.1
  • Hadoop2.6
  • Intellj
  • Scala2.11

pom文件

Weiterlesen »

每天起床第一句,看看Spark调度器

Veröffentlicht am 2019-01-18 | Bearbeitet am 2019-06-14 | in Spark Other

之前呢,我们详细地分析了DAGScheduler的执行过程,我们知道,RDD形成的DAG经过DAGScheduler,依据shuffle将DAG划分为若干个stage,再由taskScheduler提交task到executor中执行,那么执行task的过程,就需要调度器来参与了。

Spark调度器主要有两种模式,也是大家耳熟能详的FIFO和FAIR模式。默认情况下,Spark是FIFO(先入先出)模式,即谁先提交谁先执行。而FAIR(公平调度)模式会在调度池中为任务进行分组,可以有不同的权重,根据权重来决定执行顺序。

那么源码中是怎么实现的呢?

Weiterlesen »

再谈,某头条公司Spark结构化流的SQL实现

Veröffentlicht am 2019-01-10 | Bearbeitet am 2019-06-14 | in Spark SQL

前面介绍了大概的使用语句,接下来讲解基本的功能点的实现。

SQL语句的解析(解析部分为开源项目flinkStreamSQL内容,直接拿过来用)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
CREATE TABLE SocketTable(
word String,
valuecount int
)WITH(
type='socket',
host='hadoop-sh1-core1',
port='9998',
delimiter=' '
);
create SINK console(
)WITH(
type='console',
outputmode='complete'
);
insert into console select word,count(*) from SocketTable group by word;
Weiterlesen »

2019元旦-线下项目第11期圆满结束

Veröffentlicht am 2019-01-02 | Bearbeitet am 2019-06-17 | in 线下实战班
Weiterlesen »
1…789…16

ruozedata

若泽数据优秀博客汇总
155 Artikel
31 Kategorien
74 schlagwörter
RSS
GitHub B站学习视频 腾讯课堂学习视频 官网
|
若泽数据
|