Spark Mllib分層抽樣具體是怎樣操作的？

更新時間:2021年01月29日14時51分來源:傳智教育瀏覽次數(shù):

分層抽樣法也叫類型抽樣法,它是先將總體樣本按照某種特征分為若干次級(層),然后再從每一一層內(nèi)進行獨立取樣，組成一個樣本的統(tǒng)計學(xué)計算方法。例如，某手機生產(chǎn)廠家估算當(dāng)?shù)貪撛谟脩?可以將當(dāng)?shù)鼐用裣M水平作為分層基礎(chǔ)，減少樣本中的誤差，如果不采取分層抽樣，僅在消費水平較高的用戶中做調(diào)查，就不能準確地估算出潛在的用戶。接下來，通過Spark-Shell演示分層抽樣方法，具體代碼如下。

#創(chuàng)建鍵值對RDD

scala>val data =sc.parallelize(

Seg((1, 'a'), (1, 'b'), (2,'c')， (2, 'a'), (2, 'e'), (3, 'f1))#設(shè)定抽樣格式

scala>val fractions =Map(1->0.1, 2->0.6，3->0.3)

并從每層獲取抽樣樣本

scala> val approxSample =

data . sampleByKey (withReplacementfalse, fractions = fractions)并從每層獲取精確樣本

scala> val exactSample=

中招eyeyse otheptacee -fale, fractoo -ractoes#打印抽樣樣本

scala> approxsample.foreach (printin)

(2,e)

#打印精確樣本

scala> exactsample. frech(printn)

(2,d)

(3,f)

(1,b)

(2,c)

在上述代碼中用到了兩種3分層抽樣方法.其中sampleByKey()方法需要作用于一一個鍵值對數(shù)組,其中Rroy用于分類Velu可以是任雅值，然后通過r.歌徒父分關(guān)茶件有收.K條件的采樣比例1.0代表被率為o，qaun機農(nóng)物物鮮光否sppyeyExrn)方法會對全量數(shù)據(jù)做采樣計算。對于每個類別，都會產(chǎn)生(k.n)個樣本，其中Ak是鍵為factos的Key的樣本類別采樣的比例:nk是Key所擁有的樣本數(shù)。sampleByKeyExtra采樣的結(jié)果會更準確，有99.9%的置信度，但耗費的計算資源也更多。