在HDFS中,NameNode是系統(tǒng)的核心節(jié)點,它存儲了各類元數(shù)據(jù)的信息,并負(fù)責(zé)管理文件系統(tǒng)的命名空間和客戶端對文件的訪問。但是,在Hadoop1.0版本中,NameNode只有一個,一旦這個NameNode發(fā)生故障,就會導(dǎo)致整個Hadoop集群不可用,也就是發(fā)生了單點故障問題。 查看全文>>
大數(shù)據(jù)技術(shù)文章2022-06-28 |傳智教育 |大數(shù)據(jù)培訓(xùn),HDFS高可用框架
大數(shù)據(jù)分析有完善的操作步驟,先分析什么,后分析什么,各個分析點之間都有邏輯聯(lián)系,體系化的分析形成,使工作更加高效便捷,數(shù)據(jù)更有說服力。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-22 |傳智教育 |大數(shù)據(jù)業(yè)務(wù)分析步驟,數(shù)據(jù)的收集,整理,展現(xiàn)和工作報告
Hadoop發(fā)行版本分為開源社區(qū)版和商業(yè)版,社區(qū)版是指由Apache軟件基金會維護(hù)的版本,是官方維護(hù)的版本體系。商業(yè)版Hadoop是指由第三方商業(yè)公司在社區(qū)版Hadoop基礎(chǔ)上進(jìn)行了一些修改、整合以及各個服務(wù)組件兼容性測試而發(fā)行的版本。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-14 |傳智教育 |大數(shù)據(jù)Hadoop,HDFS,MapReduce
Apache Hive是Hadoop上的SQL引擎,也是大數(shù)據(jù)系統(tǒng)中重要的數(shù)據(jù)倉庫工具,Spark SQL支持訪問Hive數(shù)據(jù)倉庫,然后在Spark引擎中進(jìn)行統(tǒng)計分析。接下來介紹通過Spark SQL操作Hive數(shù)據(jù)倉庫的具體實現(xiàn)步驟。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-14 |傳智教育 |Hive數(shù)據(jù)倉庫的操作, Spark SQL實現(xiàn)Hive數(shù)據(jù)倉庫的操作
DataFrame提供了兩種語法風(fēng)格,即DSL風(fēng)格語法和SQL風(fēng)格語法,二者在功能上并無區(qū)別,僅僅是根據(jù)用戶習(xí)慣,自定義選擇操作方式。接下來,我們通過兩種語法風(fēng)格,分別講解DataFrame操作的具體方法。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-04-14 |傳智教育 |DataFrame操作,DataFrame的常用操作
Spark可以通過并行集合創(chuàng)建RDD。即從一個已經(jīng)存在的集合、數(shù)組上,通過SparkContext對象調(diào)用parallelize()方法創(chuàng)建RDD。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-23 |傳智教育 |Spark方法創(chuàng)建RDD
在Windows系統(tǒng)下開發(fā)Scala代碼,可以使用本地環(huán)境測試,下載文件后計算機(jī)無法像人一樣直觀的感受字段的實際含義,通過反射機(jī)制可以推斷包含特定類型對象的Schema信息,因此我們需要先完成Schema的開發(fā)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-23 |傳智教育 |Schema,RDD轉(zhuǎn)化之Schema的開發(fā)
創(chuàng)建SparkSession對象可以通過“SparkSession.builder().getOrCreate()”方法獲取,但當(dāng)我們使用Spark-Shell編寫程序時,Spark-Shell客戶端會默認(rèn)提供了一個名為“sc”的SparkContext對象和一個名為“spark”的SparkSession對象,因此我們可以直接使用這兩個對象 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-23 |傳智教育 |創(chuàng)建DataFrame,