1、Hadoop主要是分佈式計算和存儲的框架,所以Hadoop工作過程主要依賴於HDFS(HadoopDistributedFileSystem)分佈式存儲系統和Mapreduce分佈式計算框架。
2、分佈式存儲系統HDFS中工作主要是一個主節點namenode(master)(hadoop1.x隻要一個namenode節點,2.x中可以有多個節點)和若幹個從節點Datanode(數據節點)相互配合進行工作。
3、HDFS主要是存儲Hadoop中的大量的數據,namenode節點主要負責的是:接收client用戶的操作請求,這種用戶主要指的是開發工程師的Java代碼或者是命令客戶端操作。維護文件系統的目錄結構,主要就是大量數據的關系以及位置信息等。管理文件系統與block的關系。
4、Hadoop中大量的數據為瞭方便存儲和管理主要是以block塊(64M)的形式儲存。一個文件被分成大量的block塊存儲之後,block塊之間都是有順序關系的,這個文件與block之間的關系以及block屬於哪個datanode都是有namenode來管理。