生产SparkSQL如何读写本地外部数据源及排错

Veröffentlicht am 2019-03-01 | Bearbeitet am 2019-06-14 | in Spark SQL

https://spark-packages.org/里有很多third-party数据源的package，spark把包加载进来就可以使用了

enter description here

csv格式在spark2.0版本之后是内置的，2.0之前属于第三方数据源

生产Spark开发读取云主机HDFS异常剖析流程

Veröffentlicht am 2019-02-26 | Bearbeitet am 2019-06-14 | in Spark Other

问题背景：

云主机是 Linux 环境，搭建 Hadoop 伪分布式

公网 IP：139.198.xxx.xxx
内网 IP：192.168.137.2
主机名：hadoop001

本地的core-site.xml配置如下：

捷报:高级班学员月薪22K和面试题

Veröffentlicht am 2019-02-25 | Bearbeitet am 2019-06-18 | in 高薪就业

我们不做过多宣传，

因为我们是若泽数据，企业在职培训。

直接看高级班学员offer及offer的刚出炉的面试题，3份面试题，难吗？

Spark UI界面实现原理

Veröffentlicht am 2019-02-22 | Bearbeitet am 2019-06-14 | in Spark Other

当Spark程序在运行时，会提供一个Web页面查看Application运行状态信息。是否开启UI界面由参数spark.ui.enabled(默认为true)来确定。下面列出Spark UI一些相关配置参数，默认值，以及其作用。

enter description here

本文接下来分成两个部分，第一部分基于Spark-1.6.0的源码，结合第二部分的图片内容来描述UI界面在Spark中的实现方式。第二部分以实例展示Spark UI界面显示的内容。

高级班学员高薪offer32w，你比他高吗？

Veröffentlicht am 2019-02-21 | Bearbeitet am 2019-06-18 | in 高薪就业

若泽数据，创办三年来，高级班课表已经更新V3版本，和老师的企业生产项目同步更新！官网课表已经更新！

官网 http://www.ruozedata.com

Hue解决下载10万行的限制

Veröffentlicht am 2019-02-18 | Bearbeitet am 2019-07-18 | in 其他组件

Spark监控报错javax.servlet.http.HttpServletRequest.isAsyncStarted

Veröffentlicht am 2019-02-16 | Bearbeitet am 2019-06-14 | in Spark Other

环境

Spark2.2.1
Hadoop2.6
Intellj
Scala2.11

pom文件

每天起床第一句，看看Spark调度器

Veröffentlicht am 2019-01-18 | Bearbeitet am 2019-06-14 | in Spark Other

之前呢，我们详细地分析了DAGScheduler的执行过程，我们知道，RDD形成的DAG经过DAGScheduler，依据shuffle将DAG划分为若干个stage，再由taskScheduler提交task到executor中执行，那么执行task的过程，就需要调度器来参与了。

Spark调度器主要有两种模式，也是大家耳熟能详的FIFO和FAIR模式。默认情况下，Spark是FIFO（先入先出）模式，即谁先提交谁先执行。而FAIR（公平调度）模式会在调度池中为任务进行分组，可以有不同的权重，根据权重来决定执行顺序。

那么源码中是怎么实现的呢？

再谈，某头条公司Spark结构化流的SQL实现

Veröffentlicht am 2019-01-10 | Bearbeitet am 2019-06-14 | in Spark SQL

前面介绍了大概的使用语句，接下来讲解基本的功能点的实现。

SQL语句的解析(解析部分为开源项目flinkStreamSQL内容，直接拿过来用)

CREATE TABLE SocketTable(
    word String,
    valuecount int
)WITH(
    type='socket',
    host='hadoop-sh1-core1',
    port='9998',
    delimiter=' '
);
create SINK console(
)WITH(
    type='console',
    outputmode='complete'
);
insert into console select word,count(*) from SocketTable group by word;

2019元旦-线下项目第11期圆满结束

Veröffentlicht am 2019-01-02 | Bearbeitet am 2019-06-17 | in 线下实战班