博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark-RDD 模型 以及运行原理
阅读量:6710 次
发布时间:2019-06-25

本文共 426 字,大约阅读时间需要 1 分钟。

Spark-RDD 模型 以及运行原理

数据:在内存中计算,数组、list、set

spark:RDD是弹性分布性数据集合,并且是基于分区的只读记录。

RDD:操作类型(转换-Transformaction 和 行动-Action)

转换:Transformaction:根据原有的RDD创建一个新的RDD 。行动:Action是把RDD的操作返回给Driver。

所有的转换都是基于lazy模式(懒加载)。只有遇到Action的时候才开始执行。

RDD的依赖关系:job -> stag 

宽依赖,窄依赖

  宽依赖RDD的每个partition都依赖于父RDD的所有Partition

  窄依赖:只依赖一个或部分Partition

  

RDD分区与并行度

  可以通过配置 spark.default.parallesism 的设置

 

转载于:https://www.cnblogs.com/Tonyzczc/p/10421525.html

你可能感兴趣的文章
dedecms验证自定义表单不为空
查看>>
用户测评 | EDAS Serverless 上手体验
查看>>
mysql导出xls的格式
查看>>
开发者招聘节 | 2019阿里巴巴技术面试题分享(陆续放出)
查看>>
Linux 虚拟化实践之KVM
查看>>
DigitalOcean的旅程:从被TechStars拒绝走向云托管服务宠儿
查看>>
脚踏编程及接线方法
查看>>
Linux第三周作业
查看>>
Java邮箱验证
查看>>
@exceptionhandler 没有起作用,捕获不到异常
查看>>
初探SElinux
查看>>
elasticsearch之cluster模块
查看>>
dubbo源码分析系列(4)dubbo通信设计
查看>>
java报表中AIX字体丢失解决方案
查看>>
学习Perl 第2讲
查看>>
使用AJAX的最简单示例
查看>>
JAVA常用类
查看>>
Java SE 7新特性:创建泛型实例时自动类型推断
查看>>
面试问题之:JSON是什么?
查看>>
创建plist
查看>>