沐鸣下载Apache Spark中的容错。

Apache Spark中的容错介绍

在开始学习Spark中的容错功能之前,沐鸣下载让我们先为初学者修改一下Apache Spark的概念。

现在让我们了解什么是故障以及Spark如何处理容错。

故障是指故障,因此容错能力就是要

操作并在故障发生后恢复损失。如果我们想

系统要有容错能力,就应该是冗余的,因为我们需要

冗余组件来获取丢失的数据。错误的数据是

由冗余数据恢复。

火花RDD容错

首先让我们看看如何在Spark中创建RDDs。

Spark在HDFS或S3等容错文件系统中对数据进行操作。

因此,所有由容错数据生成的RDDs都是容错的。沐鸣代理:

但是对于流/实时数据(数据通过

网络)。因此,对火花容错的关键需求就是这种类型

的数据。Spark的基本容错语义是:

从Apache Spark RDD开始

是一个不可变的数据集,每个星火RDD记得沿袭

对容错输入数据集使用的确定性操作

创建它。

如果由于工作节点故障导致RDD的任何分区丢失,

然后,该分区可以重新计算从原来的容错

使用沿袭操作的数据集。

假设所有的RDD转换都是确定的,那么最终转换的RDD中的数据总是相同的,而不考虑Spark集群中的故障。

为了实现对所有生成的RDDs的容错,实现了

方法中的工作节点中的多个Spark执行器之间复制数据

集群。这导致需要恢复两种类型的数据

失败时:1)数据接收并复制。2)数据已接收,但已缓冲以便复制。

接收和复制的数据:在这种情况下,将在其他节点上复制数据,因此当出现故障时可以检索数据。

已接收但已缓冲以便复制的数据:数据未被复制,因此恢复错误的唯一方法是再次从源检索它。

工作节点和驱动节点也会发生故障。

工作节点故障:在Spark集群上运行应用程序代码的节点

是火花工作人员节点。这些是从属节点。任何一个工人

运行executor的节点可能失败,从而导致内存丢失

任何接收器都运行在失败的节点上,那么它们的缓冲区数据将会

是输了。沐鸣平台注册登录

驱动节点失败:如果有一个失败

运行Spark流应用程序的驱动程序节点

SparkContent丢失,所有执行器及其内存中的数据丢失

丢失。