我們都參加過高考,據(jù)統(tǒng)計(jì),高考的物理成績(jī)確實(shí)與數(shù)學(xué)成績(jī)有一定關(guān)系,但除此之外,還存在很多影響物理成績(jī)的因素,例如:是否喜歡物理,用在物理上的時(shí)間等。而當(dāng)我們主要考慮數(shù)學(xué)成績(jī)對(duì)物理的影響時(shí),就是要考察這兩者之間的相關(guān)關(guān)系。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-10-10 |傳智播客 |SparkMllib如何解決回歸問題
基于Flume設(shè)計(jì)實(shí)現(xiàn)分層日志收集系統(tǒng),到底有什么好處呢?我們可以先看一下,如果不分層,會(huì)帶來哪些問題: 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-10-10 |傳智播客 |Flume分層日志收集系統(tǒng)
在SparkMllib中主要分為特征抽取、特征轉(zhuǎn)化、特征選擇,特別是在特征轉(zhuǎn)化方面是從一個(gè)DataFrame轉(zhuǎn)化為另外一個(gè)DataFrame,在數(shù)值型數(shù)據(jù)處理的時(shí)候我們對(duì)機(jī)器學(xué)習(xí)數(shù)據(jù)集中的樣本和特征部分進(jìn)行單獨(dú)的處理,這里就涉及對(duì)樣本的正則化操作和數(shù)值型特征的歸一化和標(biāo)準(zhǔn)化的方法,今天就帶大家理解這一部分的思考和認(rèn)識(shí)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-18 |傳智播客 |SparkMllib數(shù)值型特征
Producer攔截器(interceptor)是在Kafka 0.10版本被引入的,主要用于實(shí)現(xiàn)clients端的定制化控制邏輯。對(duì)于producer而言,interceptor使得用戶在消息發(fā)送前以及producer回調(diào)邏輯前有機(jī)會(huì)對(duì)消息做一些定制化需求,比如修改消息等。同時(shí),producer允許用戶指定多個(gè)interceptor按序作用于同一條消息從而形成一個(gè)攔截鏈(interceptor chain)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-17 |傳智教育 |kafka自定義攔截器教程
Hadoop的MapReduce來源于Google公司的三篇論文中的MapReduce,其核心思想是“分而治之”。Map負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個(gè)“簡(jiǎn)單的任務(wù)”來并行處理??梢赃M(jìn)行拆分的前提是這些小任務(wù)可以并行計(jì)算,彼此間幾乎沒有依賴關(guān)系。Reduce負(fù)責(zé)“合”,即對(duì)map階段的結(jié)果進(jìn)行全局匯總。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-16 |傳智播客 |MapReduce編程原理
Kafka是什么?Kafka最初由LinkedIn開發(fā),是一款基于分區(qū)、多副本的分布式控制器,基于ZooKeeper協(xié)調(diào)。它最大的特點(diǎn)是能夠?qū)崟r(shí)處理大量數(shù)據(jù),滿足各種需求場(chǎng)景:如基于hadoop的批處理系統(tǒng)、低延遲實(shí)時(shí)系統(tǒng)、storm/spark流媒體引擎、web/nginx日志、訪問日志、消息服務(wù)等,采用scala語言編寫。LinkedIn在2010貢獻(xiàn)了Apache基金會(huì),并成為頂級(jí)開源項(xiàng)目。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-16 |傳智播客 |Kafka api
正則化是廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的技術(shù),它可以改善過擬合,降低結(jié)構(gòu)風(fēng)險(xiǎn),提高模型的泛化能力,有必要深入理解正則化技術(shù)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-12 |傳智播客 |正則化是什么
科技進(jìn)步極大豐富人類生活的同時(shí),也給我們的生活帶來了選擇的困擾--如何快速的從頭繁雜的數(shù)據(jù)中獲取有價(jià)值的信息,推薦系統(tǒng)作為解決信息負(fù)載問題的有效方法,正在發(fā)揮著顯著的作用;傳統(tǒng)的推薦系統(tǒng)在處理大數(shù)據(jù)時(shí)存在的問題正在限制其性能的發(fā)揮。為了充分挖掘數(shù)據(jù)價(jià)值,提高推薦系統(tǒng)的性能和實(shí)時(shí)性,進(jìn)一步有效緩解信息過載的問題,我們今天對(duì)大數(shù)據(jù)時(shí)代下的精準(zhǔn)推薦系統(tǒng)進(jìn)行探討。 查看全文>>
大數(shù)據(jù)技術(shù)文章2019-09-03 |傳智播客 |內(nèi)容推薦系統(tǒng)
北京校區(qū)