环境搭建:Hadoop集群环境搭建
Hadoop 集群环境搭建复制和安装 hadoop
将本地hadoop-3.3.6.tar.gz复制进master容器中root目录中
1docker cp /path/to/hadoop-3.3.6.tar.gz master:/root
将hadoop-3.3.6.tar.gz解压进/opt/module目录下
1tar zxvf /root/hadoop-3.3.6.tar.gz -C /opt/module/
将解压后的目录改名为hadoop
1mv /opt/module/hadoop-3.3.6 /opt/module/hadoop
创建存储tmp namenode datanode数据的目录
1mkdir -p /opt/module/hadoop/tmp /opt/module/hadoop/dfs/{name,data}
配置 hadoop
hadoop的配置文件都存放在${HADOOP_HOME}/etc/hadoop中
1cd /opt/module/hadoop/etc/hadoop/
在had ...
环境搭建:免密处理和JDK8安装
免密处理
!!!以下指令需要在三个容器中都运行!!!
安装ssh及网络工具
输入指令来安装ssh和网络工具
1yum install openssh-server openssh-clients net-tools
配置 ssh
编辑/etc/ssh/sshd_config文件
1vi /etc/ssh/sshd_config
去掉Port 22此行最前面的”#”号, 开放22端口
12345678# If you want to change the port on a SELinux system, you have to tell# SELinux about this change.# semanage port -a -t ssh_port_t -p tcp #PORTNUMBER#Port 22#AddressFamily any#ListenAddress 0.0.0.0#ListenAddress ::
开启ssh
12systemctl start sshd # 开启sshsystemctl enable sshd # 开机自启
修改r ...
环境搭建:创建环境需要的centos容器
容器准备拉取centos镜像
使用docker pull指令拉取镜像
1docker pull centos:centos7.9.2009
docker pull命令从docker hub上拉取一个centos7.9.2009的镜像
建立容器待更新
新建一个容器并设置名为centos,再进入这个容器
12docker run -itd --name centos centos:centos7.9.2009 /bin/bashdocker exec -it centos /bin/bash
docker run命令用于在 Docker 中运行一个容器
-itd 是选项组合:
-i: 交互模式运行容器
-t: 为容器分配一个伪终端
-d: 后台运行该容器(分离模式)
--name centos为容器建立一个名称为centos
centos:centos7.9.2009镜像名称和标签
/bin/bash启动容器后启动/bin/bash
docker exec在运行的容器中执行命令
更新容器
备份source.list到home目录
1cp /etc/ ...
环境搭建前言
环境搭建前言在接下来的环境搭建中,我将使用Docker进行大数据环境的搭建。
Docker是一种流行的容器化技术,它能够简化软件环境的搭建和管理,提供轻量级、便捷且一致的开发、测试和生产环境。
为什么选择 Docker?
轻量级和高效:
Docker 容器共享主机操作系统的内核,启动速度非常快,资源占用低。
环境一致性:
使用 Docker 容器,可以确保在开发、测试和生产环境中运行的应用一致的环境。
简化部署和管理:
通过 Docker,能够将复杂的分布式系统环境打包成独立的容器,简化了部署和管理过程。
Docker 环境搭建指南1. Docker 安装首先,需要在Linux操作系统上安装Docker。以下是不同操作系统的安装指南:
在debian、ubuntu、centos中,由于Docker提供了便利安装的脚本,可以使用 USTC 镜像站安装:
12curl -fsSL https://get.docker.com -o get-docker.shDOWNLOAD_URL=https://mirrors.ustc.edu.cn/docker-ce sh g ...
批处理和流处理
批处理什么是批处理批处理是一种离线的数据处理方式,它将一批数据作为输入,并在特定的时间或条件下进行处理。某些数据处理任务(如备份、筛选和排序)需要大量计算,而逐条处理效率较低,因此批处理更为适合。
在批处理中,数据被分为离散的块,并按照预定的顺序和步骤进行处理。批处理作业可以定期运行,例如每日、每周,或在特定的触发条件下执行。通常,批处理要求数据存储在一个集中的位置,以便高效地进行批量处理。
批处理框架1. HadoopApache Hadoop 是一个开源框架,用于分布式存储和处理大规模数据集。其核心组件包括 Hadoop Distributed File System (HDFS) 和 MapReduce 编程模型。
优点: 可扩展性强,能够处理 PB 级数据。广泛使用和支持,有丰富的生态系统组件(如 Hive、Pig 等)。
缺点: 学习曲线陡峭。
2. SparkApache Spark 是一个统一的分析引擎,具有高效的内存计算能力。它支持批处理、流处理、机器学习和图计算等多种工作负载。
优点: 速度快,特别是对于内存计算任务。易于使用,支持多种编程语言(如 Scala、 ...
集群架构概览
本文概述了几种常见的集群架构,包括伪集群、真集群、独立集群和高可用集群。
伪集群伪集群指的是在单台机器中启动多个服务进程,并模拟形成一个集群环境的技术。例如在一台机器中搭建了 Hadoop 并且启动它,所启动的 Hadoop 节点都运行在一台机器上,这就被称为伪集群。这种配置常用于开发和测试环境。
优点: 配置简单、节省硬件成本、便于测试和开发
缺点: 性能受到限制、故障影响全部
真集群真集群指在多个物理机器上搭建的集群系统。在真集群中,每个节点都是一个独立的计算机,拥有自己的处理器、内存、存储和网络接口,共同执行计算、存储或其他任务。真集群适用于需要高性能、高可用性和可扩展性的场景。
优点: 高性能、高可用性、可扩展性、负载均衡、易于管理
缺点: 复杂性、网络依赖、资源竞争
独立集群独立集群指的是一个独立于其他系统或网络环境的集群。也就是说,这个集群在它自己的环境中独立运行,不依赖于外部的集群或计算资源。独立集群的所有节点都是集群的一部分,能够共同参与任务的处理和数据的存储。这种集群常用于企业内部的专用数据中心。
优点: 自主性、独立性、自给自足、内网运行、专用环境
缺点: ...
什么大数据
什么是大数据
根据维基百科中,是这样介绍的:
大数据 (英语:Big Data 亦称作巨量资料),指的是传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
大数据的特点大数据通常具有以下几个特点,简称为“5V”特性:
量(Volume):数据的规模非常庞大,从几 TB 到几 PB 甚至更多。
速度(Velocity):数据生成和处理的速度非常快,需要实时或近实时的处理能力。
多样性(Variety):数据种类繁多,包括结构化数据、半结构化数据和非结构化数据。
真实性(Veracity):数据的准确性和可信度,确保数据在噪音和异常值的情况下依然可靠。
价值(Value):从庞大的数据集中挖掘出有价值的信 ...