Zookeeper 是在 Java 中客戶端主類,負(fù)責(zé)建立與 zookeeper 集群的會(huì)話, 并提供方法進(jìn)行操作。 org.apache.zookeeper.Watcher 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-11-16 |傳智播客 |Zookeeper,大數(shù)據(jù)
整個(gè)Map階段流程大體如上圖所示。簡(jiǎn)單概述:input File通過split被邏輯切分為多個(gè)split文件,通過Record按行讀取內(nèi)容給map(用戶自己實(shí)現(xiàn)的)進(jìn)行處理,數(shù)據(jù)被map處理結(jié)束之后交給OutputCollector收集器,對(duì)其結(jié)果key進(jìn)行分區(qū)(默認(rèn)使用hash分區(qū)),然后寫入buffer,每個(gè)map task都有一個(gè)內(nèi)存緩沖區(qū),存儲(chǔ)著map的輸出結(jié)果,當(dāng)緩沖區(qū)快滿的時(shí)候需要將緩沖區(qū)的數(shù)據(jù)以一個(gè)臨時(shí)文件的方式存放到磁盤,當(dāng)整個(gè)map task結(jié)束后再對(duì)磁盤中這個(gè)map task產(chǎn)生的所有臨時(shí)文件做合并,生成最終的正式輸出文件,然后等待reduce task來拉數(shù)據(jù)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-10-24 |傳智播客 |傳智播客,大數(shù)據(jù)
首先map task會(huì)從本地文件系統(tǒng)讀取數(shù)據(jù),轉(zhuǎn)換成key-value形式的鍵值對(duì)集合 使用的是hadoop內(nèi)置的數(shù)據(jù)類型,比如longwritable、text等 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-10-24 |傳智播客 |傳智播客,大數(shù)據(jù),hadoop
1.1. 安裝JDK 因?yàn)镾cala是運(yùn)行在JVM平臺(tái)上的,所以安裝Scala之前要安裝JDK。 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-09-30 |傳智播客 |大數(shù)據(jù),Scala
構(gòu)建Spark Application的運(yùn)行環(huán)境(啟動(dòng)SparkContext),SparkContext向資源管理器(可以是Standalone、Mesos或YARN)注冊(cè)并申請(qǐng)運(yùn)行Executor資源 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-09-11 |傳智播客 |傳智播客,Spark運(yùn)行架構(gòu)
Spark 在生產(chǎn)環(huán)境下經(jīng)常會(huì)面臨transformation的RDD非常多(例如一個(gè)Job中包含1萬個(gè)RDD)或者具體transformation的RDD本身計(jì)算特別復(fù)雜或者耗時(shí)(例如計(jì)算時(shí)長(zhǎng)超過1個(gè)小時(shí)),這個(gè)時(shí)候就要考慮對(duì)計(jì)算結(jié)果數(shù)據(jù)持久化保存 查看全文>>
大數(shù)據(jù)技術(shù)文章2018-09-11 |傳智播客 |傳智播客,spark
北京校區(qū)