AWS BPA Advanced大数据流程智能化分析平台

服务部署

BPA Advanced 是一个高级的数据分析平台,融合了Spark、Hadoop、ClickHouse等先进技术,旨在为用户提供从数据采集到深度分析的一站式解决方案。其核心工作流程包括:

  1. 数据采集:通过大数据任务调度中心的定时器系统化地收集流程和任务实例信息。
  2. 数据存储:将采集的信息安全上传至Hadoop集群。
  3. 数据处理:利用Spark进行数据加工和高效计算,并将结果保存至专业数据仓库。
  4. 数据分析:ClickHouse负责数据的高速查询和深入挖掘。
  5. 报表展示:最后,BI工具将处理后的数据转化为直观的报表和分析成果,方便决策和应用。

炎黄盈动公司为简化BPA采集需要的Spark、ClickHouse等服务的部署,提供具体的环境要求、部署文件下载地址、部署步骤。

PMI遵循该部署方案

环境要求

  • 操作系统为CentOS、Ubuntu等常见的操作系统
  • JDK1.8
  • Mysql 5.7+(UTF-8编码)

如果Mysql数据库安装在Linux操作系统,需设置表名不区分大小写。

配置要求

集群部署配置要求

  • 主机数量:至少3台,建议1台作为NameNode,2台作为DataNode。
  • 处理器:每台主机至少4核心,2.0GHz及以上。
  • 内存:每台主机至少16GB RAM。
  • 存储:每台主机至少1TB硬盘空间。
  • 网络:1Gbps及以上网络连接。

    单机部署配置要求

  • 处理器:至少4核心,2.0GHz及以上
  • 内存:至少16GB RAM
  • 存储:至少1TB硬盘空间,支持SSD以提供更高I/O性能

    备注

  • 集群部署配置是为了支持较高的并发和数据存储需求,可提供更强的数据处理和分析能力。
  • 单机部署适用于开发、测试或小型生产环境,它能够满足基本的数据处理和分析需求。
  • 硬件选择时应考虑未来的扩展需求,以便根据业务增长和工作负载的变化进行灵活扩展。对于存储和内存等关键组件,建议预留一定的余量,以便在必要时进行扩展。
  • 在实际部署环境中,硬件配置的选择应根据具体的业务场景和预期的工作负载来调整。如果可能的话,最好在部署前进行充分的性能和容量评估,以便选择最合适的硬件配置。

集群部署要求

Hadoop集群

  • Master节点 (NameNode): 服务器1
  • Slave节点 (DataNode): 服务器2 和 服务器3

    Spark

  • Master节点: 服务器1
  • Worker节点: 服务器2 和 服务器3

    MySQL

  • MySQL主要用于存储元数据(例如,Hive的元数据)。因为它是单机部署,选择一台服务器进行部署即可。
    • 服务器1部署MySQL。

      ClickHouse

  • 选择一台服务器进行部署。确保这台服务器有足够的存储空间和高性能硬盘(例如SSD),以支持高速查询。
    • 服务器3部署ClickHouse。

      算法包部署

  • 算法包部署依赖于Spark集群进行数据处理和计算。为了减少网络延迟,建议将其部署在Spark Master所在的服务器上
    • 服务器1部署算法包。

      CK数据服务

  • 为ClickHouse提供数据查询服务的包,推荐部署在ClickHouse服务器上,这样可以减少数据查询的网络延迟
    • 服务器3部署CK数据服务

总体部署建议

  • 服务器1:
    • Hadoop Master节点 (NameNode)
    • Spark Master节点
    • MySQL
    • 算法包
  • 服务器2:
    • Hadoop Slave节点 (DataNode)
    • Spark Worker节点
  • 服务器3:
    • Hadoop Slave节点 (DataNode)
    • Spark Worker节点
    • ClickHouse
    • CK数据服务

部署完成后,请确保所有服务的网络配置正确,确保各服务之间可以互相通信。同样,根据您的实际业务流量和数据量,可以随时调整部署策略以优化性能。

注意事项

  • 数据备份: 由于MySQL和ClickHouse都是单机部署,强烈建议定期备份这两个数据库的数据,以防数据丢失。
  • 冗余: 对于HDFS,通常会配置多个副本来增加数据的冗余性。
  • 网络性能: 数据库与Hadoop集群之间、以及Spark与存储组件之间需要高速的网络通信。请确保您的网络硬件和配置可以满足这些需求。
  • 资源隔离: 如果资源允许,可以考虑使用服务器虚拟化或容器技术来隔离不同的组件资源。这样可以确保一个组件的负载高峰不会影响其他组件。
  • 数据的冗余与可靠性: 单机部署的数据库存在单点故障的风险,所以应当对数据进行定期的备份并维护好相应的备份策略。

    部署文件下载

  • Hadoop-2.6.0

  • Spark-2.3.2-bin-hadoop2.6
  • Mysql5.7
  • JDK1.8
  • Hive2.1.1
  • ClickHouse
  • Spark算法
  • Ck服务
  • Mysql5.7-JDBC驱动
  • ClickHouse-JDBC驱动
  • Guava-Java工具

    部署文件提取码:yhyd

部署步骤

服务器配置:本文档以3台服务器配置Hadoop和Spark集群为例。单机部署的步骤与此相同。

软件存放路径:示例中的所有软件都存放在/opt目录。实际部署时,请根据实际情境调整路径。

JDK部署:每台集群服务器都需要安装或配置JDK。每台机器都必须手动进行此操作。

大数据组件部署:Hadoop、Spark、Hive on Spark的安装或配置也需要在所有集群服务器上进行。你可以使用scp命令来复制配置,这样就不必在每台服务器上都进行手动部署(具体步骤会在后面详述)。

其他软件部署:除JDK、Hadoop、Spark和Hive on Spark之外的其他软件,只需在选定的一台服务器上进行安装或配置,具体选择哪台服务器取决于实际需求。



Seven
 010-62962343-690
 liujx@actionsoft.com.cn
感谢您对该文档的关注!如果您对当前页面内容有疑问或好的建议,请与我联系。如果您需要解答相关技术问题请登录AWS客户成功社区