沐鸣下载Apache Spark中的容错。
Apache Spark中的容错介绍
在开始学习Spark中的容错功能之前,沐鸣下载让我们先为初学者修改一下Apache Spark的概念。
现在让我们了解什么是故障以及Spark如何处理容错。
故障是指故障,因此容错能力就是要
操作并在故障发生后恢复损失。如果我们想
系统要有容错能力,就应该是冗余的,因为我们需要
冗余组件来获取丢失的数据。错误的数据是
由冗余数据恢复。
火花RDD容错
首先让我们看看如何在Spark中创建RDDs。
Spark在HDFS或S3等容错文件系统中对数据进行操作。
因此,所有由容错数据生成的RDDs都是容错的。沐鸣代理:
但是对于流/实时数据(数据通过
网络)。因此,对火花容错的关键需求就是这种类型
的数据。Spark的基本容错语义是:
从Apache Spark RDD开始
是一个不可变的数据集,每个星火RDD记得沿袭
对容错输入数据集使用的确定性操作
创建它。
如果由于工作节点故障导致RDD的任何分区丢失,
然后,该分区可以重新计算从原来的容错
使用沿袭操作的数据集。
假设所有的RDD转换都是确定的,那么最终转换的RDD中的数据总是相同的,而不考虑Spark集群中的故障。
为了实现对所有生成的RDDs的容错,实现了
方法中的工作节点中的多个Spark执行器之间复制数据
集群。这导致需要恢复两种类型的数据
失败时:1)数据接收并复制。2)数据已接收,但已缓冲以便复制。
接收和复制的数据:在这种情况下,将在其他节点上复制数据,因此当出现故障时可以检索数据。
已接收但已缓冲以便复制的数据:数据未被复制,因此恢复错误的唯一方法是再次从源检索它。
工作节点和驱动节点也会发生故障。
工作节点故障:在Spark集群上运行应用程序代码的节点
是火花工作人员节点。这些是从属节点。任何一个工人
运行executor的节点可能失败,从而导致内存丢失
任何接收器都运行在失败的节点上,那么它们的缓冲区数据将会
是输了。沐鸣平台注册登录
驱动节点失败:如果有一个失败
运行Spark流应用程序的驱动程序节点
SparkContent丢失,所有执行器及其内存中的数据丢失
丢失。