Skip to content

Commit 7572c5b

Browse files
Ryan Taolw-lin
authored andcommitted
修正几处 typo
1 parent 3ca94b3 commit 7572c5b

File tree

3 files changed

+4
-4
lines changed

3 files changed

+4
-4
lines changed

Spark Streaming 源码解析系列/0.1 Spark Streaming 实现思路与模块概述.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -183,7 +183,7 @@ Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表
183183

184184
先看 executor 端。
185185

186-
在 executor 端,`ReceiverSupervisor``Receiver` 失效后直接重启就 OK 了,关联是保障收到的块数据的安全。保障了源头块数据,就能够保障 RDD DAG (Spark Core 的 lineage)重做。
186+
在 executor 端,`ReceiverSupervisor``Receiver` 失效后直接重启就 OK 了,关键是保障收到的块数据的安全。保障了源头块数据,就能够保障 RDD DAG (Spark Core 的 lineage)重做。
187187

188188
Spark Streaming 对源头块数据的保障,分为 4 个层次,全面、相互补充,又可根据不同场景灵活设置:
189189

@@ -317,7 +317,7 @@ ssc.awaitTermination()
317317

318318
## 四、总结与回顾
319319

320-
在最后我们再把 [Sark Streaming 官方 Programming Guide] (http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example) 的部分内容放在这里,作为本文的一个回顾和总结。请大家看一看,如果看懂了本文的内容,是不是读下面这些比较 high-level 的介绍会清晰化很多 :-)
320+
在最后我们再把 [Sark Streaming 官方 Programming Guide](http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example) 的部分内容放在这里,作为本文的一个回顾和总结。请大家看一看,如果看懂了本文的内容,是不是读下面这些比较 high-level 的介绍会清晰化很多 :-)
321321

322322
> **Spark Streaming** is an extension of the **core Spark API** that enables **scalable**, **high-throughput**, **fault-tolerant stream processing of live data streams**. Data can be ingested from many sources like Kafka, Flume, Twitter, ZeroMQ, Kinesis, or TCP sockets, and can be processed using complex algorithms expressed with high-level functions like map, reduce, join and window. Finally, processed data can be pushed out to filesystems, databases, and live dashboards. In fact, you can apply Spark’s machine learning and graph processing algorithms on data streams.
323323

Spark Streaming 源码解析系列/2.1 JobScheduler, Job, JobSet 详解.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -122,7 +122,7 @@ class JobScheduler(val ssc: StreamingContext) extends Logging {
122122

123123
这里 `jobExecutor` 的线程池大小,是由 `spark.streaming.concurrentJobs` 参数来控制的,当没有显式设置时,其取值为 `1`
124124

125-
进一步说,这里 `jobExecutor` 的线程池大小,就是能够并行执行的 `Job` 数。而回想前文讲解的 `DStreamGraph.generateJobs(time)` 过程,一次 batch 产生一个 `Seq[Job}`,里面可能包含多个 `Job` —— 所以,确切的,**有几个 *output* 操作,就调用几次 `ForEachDStream.generatorJob(time)`,就产生出几个 `Job` **
125+
进一步说,这里 `jobExecutor` 的线程池大小,就是能够并行执行的 `Job` 数。而回想前文讲解的 `DStreamGraph.generateJobs(time)` 过程,一次 batch 产生一个 `Seq[Job}`,里面可能包含多个 `Job` —— 所以,确切的,**有几个 *output* 操作,就调用几次 `ForEachDStream.generatorJob(time)`,就产生出几个 `Job`**
126126

127127
为了验证这个结果,我们做一个简单的小测试:先设置 `spark.streaming.concurrentJobs = 10`,然后在每个 batch 里做 `2``foreachRDD()` 这样的 *output* 操作:
128128

Spark Streaming 源码解析系列/4.1 Executor 端长时容错详解.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -26,7 +26,7 @@
2626

2727
本文我们详解 executor 端的保障。
2828

29-
在 executor 端,`ReceiverSupervisor``Receiver` 失效后直接重启就 OK 了,关联是保障收到的块数据的安全。保障了源头块数据,就能够保障 RDD DAG (Spark Core 的 lineage)重做。
29+
在 executor 端,`ReceiverSupervisor``Receiver` 失效后直接重启就 OK 了,关键是保障收到的块数据的安全。保障了源头块数据,就能够保障 RDD DAG (Spark Core 的 lineage)重做。
3030

3131
Spark Streaming 对源头块数据的保障,分为 4 个层次,全面、相互补充,又可根据不同场景灵活设置:
3232
- (1) 热备

0 commit comments

Comments
 (0)