一、行式数据库和列式数据库的对比
1、存储比较
行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。
ruozedata
序列化在分布式应用的性能中扮演着重要的角色。格式化对象缓慢,或者消耗大量的字节格式化,会大大降低计算性能。在生产中,我们通常会创建大量的自定义实体对象,这些对象在网络传输时需要序列化,而一种好的序列化方式可以让数据有更好的压缩比,从而提升网络传输速率,提高spark作业的运行速度。通常这是在spark应用中第一件需要优化的事情。Spark的目标是在便利与性能中取得平衡,所以提供2种序列化的选择。