更新時(shí)間:2021年12月27日11時(shí)41分 來(lái)源:傳智教育 瀏覽次數(shù):
DStream(Discretized Stream)是Spark Streaming提供的基本數(shù)據(jù)抽象。它表示一個(gè)連續(xù)的數(shù)據(jù)流,可以是從源接收到的輸入數(shù)據(jù)流,也可以是通過(guò)轉(zhuǎn)換輸入流生成的已處理數(shù)據(jù)流。
DStream由一系列連續(xù)的RDD表示,每個(gè)RDD都包含來(lái)自特定間隔的數(shù)據(jù),如下圖所示。SparkStreaming對(duì)流數(shù)據(jù)按照秒/分等時(shí)間間隔進(jìn)行微批劃分,每個(gè)微批就是一個(gè)RDD,這些個(gè)時(shí)間上連續(xù)的RDD就組成了
DStream
所以DStream本質(zhì)上就是一系列時(shí)間上連續(xù)的RDD即DStream=>Seq[RDD]
對(duì)DStream進(jìn)行操作(如:flatMap/map/filter..)就是對(duì)其底層的RDD進(jìn)行操作
對(duì)RDD操作會(huì)返回新的RDD,對(duì)DStream進(jìn)行操作也會(huì)返回新的DStream
上圖相關(guān)說(shuō)明:
1、每一個(gè)橢圓形表示一個(gè)RDD
2、橢圓形中的每個(gè)圓形代表一個(gè)RDD中的一個(gè)Partition分區(qū)
3、每一列的多個(gè)RDD表示一個(gè)DStream(圖中有三列所以有三個(gè)DStream
4、每一行最后一個(gè)RDD則表示每一個(gè)Batch Size所產(chǎn)生的中間結(jié)果RDD
大多數(shù)Transformation和Action/Output和之前的RDD的一樣使用.少部分不一樣的通過(guò)案例講解
北京校區(qū)