May 2020 – Backend Site

Spark Streaming(二) Structed Streaming

Published by zzy_backend on May 21, 2020

Spark Streaming(二) Structed Streaming 本文详细介绍下Spark Streaming的第二代引擎Structed Streaming，包括Structed Streaming的概述，核心概念， Structed Streaming相关的应用等。…

View Full Text

Spark Streaming(一) 基础知识介绍

Published by zzy_backend on May 18, 2020

本文介绍流处理的概念，流处理引擎环境和Apache Spark Streaming概述。流处理批数据处理是指通过固定的输入数据集运行计算逻辑，并在结束时产生结果。这意味着处理将在到达数据集末尾时停止。相比之下，流处理是关于通过无界数据集运行计算逻辑，因此处理是连续且长时间运行的。虽然批处理数据与流数据的区别主要在于有限性，但由于流数据的无界数据性质、实时数据的传入顺序、数据到达的不同速率以及面对机器故障时对正确性和低延迟的期望，流数据处理要比批数据处理复杂得多，也更具挑战性。流处理的挑战流数据处理有它自己的一组独特的挑战，这些挑战是处理连续和无界数据的结果。…

View Full Text