网站搜索

在 CentOS/RHEL 7 上部署 Hadoop 服务器的最佳实践 - 第 1 部分


在本系列文章中,我们将使用供应商工业推荐的最佳实践来介绍整个Cloudera Hadoop集群构建

操作系统安装和执行操作系统级别先决条件是构建Hadoop集群的第一步。 Hadoop可以运行在各种风格的Linux平台上:CentOSRedHatUbuntuDebian<SUSE等,在实时生产中,大多数Hadoop集群都是构建在RHEL/CentOS之上,我们本系列教程将使用CentOS 7进行演示。

在组织中,可以使用kickstart完成操作系统安装。如果是3到4个节点的集群,可以手动安装,但是如果我们搭建的集群超过10个节点,那么一个一个安装操作系统就比较麻烦了。在这种情况下,Kickstart方法就派上用场了,我们可以使用kickstart进行批量安装。

Hadoop 环境获得良好的性能取决于配置正确的硬件和软件。因此,构建生产 Hadoop 集群需要考虑很多有关硬件和软件的因素。

在本文中,我们将介绍有关操作系统安装的各种基准以及在 CentOS/RHEL 7 上部署 Cloudera Hadoop Cluster Server 的一些最佳实践。

部署 Hadoop 服务器的重要注意事项和最佳实践

以下是在 CentOS/RHEL 7 上设置部署 Cloudera Hadoop Cluster Server 的最佳实践。

  • Hadoop服务器不需要企业标准服务器来构建集群,它需要商用硬件。
  • 生产集群中,建议配置8~12块数据盘。根据工作负载的性质,我们需要做出决定。如果集群用于计算密集型应用程序,则拥有 4 到 6 个驱动器是避免 I/O 问题的最佳实践。
  • 数据驱动器应单独分区,例如从/data01开始到/data10
  • 不建议工作节点使用 RAID 配置,因为 Hadoop 本身默认通过将块复制为 3 个来提供数据容错。因此,JBOD 最适合工作节点。
  • 对于主服务器,RAID 1 是最佳实践。
  • CentOS/RHEL 7.x 上的默认文件系统是 XFS。 Hadoop 支持 XFS、ext3 和 ext4。推荐的文件系统是 ext3,因为它经过测试具有良好的性能。
  • 所有服务器应该具有相同的操作系统版本,至少相同的次要版本。
  • 最佳实践是拥有同质硬件(所有工作节点应具有相同的硬件特征(RAM、磁盘空间和核心等)。
  • 根据集群工作负载(平衡工作负载、计算密集型、I/O 密集型)和大小,每台服务器的资源(RAM、CPU)规划会有所不同。

下面是 24TB 存储服务器的磁盘分区示例。

安装CentOS 7进行Hadoop服务器部署

在为 Hadoop Server 安装 CentOS 7 服务器之前需要了解的事项。

  • 对于Hadoop服务器工作节点)来说,最小安装就足够了,在某些情况下,GUI只能安装在主服务器或管理服务器上,我们可以使用浏览器来访问Web UI管理工具。
  • 配置网络、主机名和其他与操作系统相关的设置可以在操作系统安装后完成。
  • 服务器供应商将实时拥有自己的控制台来交互和管理服务器,例如,戴尔服务器拥有 iDRAC,这是一种嵌入服务器的设备。使用该 iDRAC 界面,我们可以在本地系统中安装具有操作系统映像的操作系统。

在本文中,我们在VMware虚拟机中安装了操作系统(CentOS 7)。在这里,我们不会使用多个磁盘来执行分区。 CentOS 与 RHEL 类似(功能相同),因此我们将看到安装 CentOS 的步骤。

1. 首先在本地 Windows 系统中下载 CentOS 7.x ISO 映像,并在启动虚拟机时选择它。选择“安装 CentOS 7”,如图所示。

2.选择语言,默认为英语,然后点击继续

3. 软件选择 – 选择“最小安装”并单击“完成”。

4.设置root密码,因为它会提示我们设置。

5. 安装目的地 – 这是需要谨慎的重要步骤。我们需要选择需要安装操作系统的磁盘,应选择操作系统专用磁盘。点击“安装目标”并选择磁盘,实时会有多个磁盘,我们需要选择,最好是“sda”。

6. 其他存储选项 – 选择第二个选项(我将配置分区)来配置操作系统相关分区,例如 /var/ var/log/home/tmp/opt/swap

7.完成后,开始安装。

8.安装完成后,重新启动服务器。

9.登录服务器并设置主机名。

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

概括

在本文中,我们介绍了操作系统安装步骤和文件系统分区的最佳实践。这些都是一般准则,根据工作负载的性质,我们可能需要关注更多细微差别,以实现集群的最佳性能。对于Hadoop管理员来说,集群规划是一门艺术。我们将在下一篇文章中深入探讨操作系统级别的先决条件和安全强化。