CDP Data Center概述
CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HDP两者的优点包括新功能或增强功能。该发行版是一个可扩展和可定制的平台,你可以在之上运行多种类型的工作负载。
CDP Data Center支持各种混合解决方案,包括计算和存储分离,并且可以从远程集群访问数据。这种混合方法通过管理存储,表schema,身份认证,授权与治理为容器化应用程序提供了基础。
CDP Data Center由各种组件组成,比如Apache HDFS,Apache Hive 3,Apache HBase和Apache Impala,以及许多其他用于特殊工作负载的组件。你可以选择这些服务的任意组合来创建满足你业务需求和工作负载的集群。Cloudera已经为你预配置好了几个服务包可用于常见的工作负载,包括:
- Data Engineering
Ingest, transform, and analyze data.
Services: HDFS, YARN, Ranger, Atlas, Hive Metastore, Hive on Tez, Spark, Oozie, Hue, and Data Analytics Studio
- Data Mart
Browse, query, and explore your data in an interactive way.
Services: HDFS, YARN, Ranger, Atlas, Hive Metastore, Impala, and Hue
- Operational Database
Real-time insights for modern data-driven business.
Services: HDFS, Ranger, Atlas, and HBase
当安装CDP Data Center集群时,你会安装一个单独的Parcel,称为Cloudera Runtime,它包含了所有的组件,CDP7.1.1详细组件列表见下图:
Component | Version |
Apache Accumulo | 1.7.0 |
Apache Atlas | 2.0.0 |
Apache Arrow | 0.8.0 |
Apache Avatica | 1.10.0 |
Apache Avro | 1.8.2 |
Apache Calcite | 1.19.0 |
Apache Crunch | 0.11.0 |
Apache DataFu | 1.3.0 |
Cruise Control | 2.0.100 |
Apache Hadoop | 3.1.1 |
Apache HBase | 2.2.3 |
HDFS | 3.1.1 |
Apache Hive | 3.1.3000 |
Hue | 4.5.0 |
Apache Impala | 3.4.0 |
Apache Kafka | 2.4.1 |
Apache Knox | 1.3.0 |
Apache Kudu | 1.12.0 |
Apache Livy | 0.6.0 |
Apache Oozie | 5.1.0 |
Apache ORC | 1.5.1 |
Apache Ozone | 0.5.0 |
Apache Parquet | 1.10.99 |
Apache Phoenix | 5.0.0 |
Apache Ranger | 2.0.0 |
Schema Registry | 0.8.1 |
Search | 1.0.0 |
Apache Solr | 8.4.1 |
Apache Spark | 2.4.5 |
Apache Sqoop | 1.4.7 |
Apache Superset | 0.34.0 |
Streams Messaging Manager | 2.1.0 |
Streams Replication Manager | 1.0.0 |
Apache Tez | 0.9.1 |
YARN | 3.1.1 |
Apache ZooKeeper | 3.5.5 |
Apache Zeppelin | 0.8.2 |
1.1 CDP Data Center工具 - Cloudera Manager
CDP Data Center使用Cloudera Manager来管理一个或多个集群及其配置,并监控集群性能。你还可以使用Cloudera Manager来管理安装,升级,维护工作流,加密,访问控制和数据复制。在未来的版本中,通过CM也能够管理Cloudera企业版CDH集群。同时你还可以使用CM创建虚拟私有集群(Virtual Private cluster),它允许你将计算资源和数据存储分开,并在计算资源之间共享数据存储。
1.2CDP Data Center工具 - Apache Atlas
CDP Data Center使用Apache Atlas来进行数据治理。Apache Atlas被设计为一个通用的元数据存储,旨在在Hadoop技术栈内外交换元数据。Atlas通过与Apache Ranger的深度集成,可以让你在所有Hadoop组件之间一致的定义,管理安全和合规策略。对于熟悉Cloudera企业版的客户来说,Apache Atlas取代了Cloudera Navigator。
1.3CDP Data Center工具 - Apache Ranger
CDP Data Center使用Apache Ranger来进行审计,认证和授权功能。Apache Ranger提供了一个集中式框架,用于收集访问审计历史记录,在访问这些历史审计记录时也支持多种参数过滤。Ranger对Hadoop各组件的审计信息进行了增强,并通过统一的访问页面为你提供方便。
Apache Ranger提供Web UI来进行管理访问控制,以确保CDP Data Center各组件能实现一致的安全策略管理。安全管理员可以在数据库,表,列和文件级别定义安全策略,还可以管理基于LDAP的特定组或单个用户的权限。也可以将基于动态条件(例如时间或地理位置)的规则添加到现有策略规则中。Ranger授权模型是可插入的,并且可以使用基于服务的定义轻松扩展到任何数据源。
对于熟悉Cloudera企业版的客户来说,Apache Ranger取代了Sentry,并且还提供以下功能:
1.更好的细粒度访问控制:
- 动态行过滤
- 动态列脱敏
- 基于属性的访问控制
- SparkSQL细粒度授权
2.丰富的策略功能
Allow/Deny constructs,自定义策略条件/上下文增强器,基于时间的策略,Atlas集成(用于基于标签的策略)
3.丰富的事件元数据的访问审计
CDP7.1.1的新特性
2.1升级或迁移
- 支持CDH到CDP DC原地升级:支持从Cloudera Manager5.13-5.16升级到Cloudera Manager7.1,支持从CDH5.13-5.16升级到Cloudera Runtime7.1。参考:
https://docs.cloudera.com/cdp/latest/upgrade-cdh/topics/ug_overview.html
- 支持从CDH迁移升级到CDP DC:使用Cloudera Manager Replication Manager可以将数据从CDH5/CDH6集群复制到Cloudera Runtime7.1集群。参考:
https://docs.cloudera.com/cdp/latest/upgrade/topics/cdpdc-upgrade-replication-manager-upgrade-overview.html
- 支持从HDP原地升级到CDP DC:使用Ambari先将HDP2.6.5升级到Cloudera Runtime7.1,然后再将Ambari迁移到Cloudera Manager。新工具AM2CM可以帮助从Ambari获取HDP集群模板,然后将其转换为Cloudera Manager的部署模板,并部署到Cloudera Manager7.1并激活Cloudera Runtime7.1 parcel,参考:
https://docs.cloudera.com/cdp/latest/upgrade-hdp/topics/amb-upgrade-and-migrate-overview.html
- 支持从Sentry到Ranger的迁移和原地升级工具:它可以将Sentry权限转换为等效的Ranger策略,该工具还支持将Kafka的Sentry策略迁移到Ranger。在使用Replication Manager将HDFS,Impala和Hive迁移到CDP时,它也会自动将Sentry策略转化为Ranger策略。参考:
https://docs.cloudera.com/cdp/latest/upgrade-cdh/topics/cdpdc-sentry-pre-upgrade-migration-to-ranger.html
- 支持从Navigator原地升级到Atlas:可将Navigator业务元数据比如标签,自定义属性(定义和实体分配),托管元数据属性(定义和实体分配),原始和更新的实体名称和描述以及来自Hive,Impala,Spark的技术元数据,引用的HDFS/S3转换到Atlas。参考:
https://docs.cloudera.com/cdp/latest/upgrade-cdh/topics/atlas-migrating-from-navigator-overview.html
2.2 Streams Messaging
- CDP DC7.1支持Apache Kafka 2.4,并包含了Schema Registry, Kafka Streams,Streams Messaging Manager, Streams Replication Manager, Kafka Connect 和Cruise Control的功能。
- 集成Kafka Connect,同时结合Kafka Streams,提供Kafka和其他系统(HDFS/S3)之间可扩展的、可靠的流式传输数据的功能。
- 新的Cruise Control可以提高运维效率,它提供API工具来监控和实现Kafka集群topic的rebalance和扩容。
- 使用Streams Messaging Manager跨生产者,消费者,topic和broker端到端地监控和管理Kafka集群。此版本还解决了许多安全问题,bug修复和增强。
- 使用Streams Replication Manager保证业务连续性,它支持Kafka集群之间的数据复制以满足灾难恢复和高可用性需求。SMM也已经集成SRM,以实现对SRM的replication任务的监控。
- 通过Schema Registry来存储和访问整个Kafka集群中的schema来扩展消息传递。Schema Registry现在已与Apache Ranger集成,并提供基于角色的访问控制。
2.3 Data Engineering
- Apache Spark 3预览 - 此版本旨在提高性能和速度,以在整个企业范围内创建和维护健壮的数据管道。新功能包括自适应执行(adaptive execution)Spark SQL,更好的数据源v2性能,二进制数据源和其他语言支持。
- 通过Apache Hive和动态分区剪裁功能提高了Apache Spark的性能和互操作性。
- 新版Hue集成Apache Atlas, the Data Catalog API, Service discovery和Apache Hive语法参考,可以更快,更全面地管理数据工程工作流和管道创建。
2.4 Data Warehousing
- 在大型数据集上进行更快的SQL分析,包括对于Hive和Impala的提升,如快速更新,下钻分析时序数据,以及基于时间的聚合。
- 通过对用于评估,识别和发现任何结构数据的技术的改进,更好的理解Apache Solr中的非结构化数据源,以获取更准确的结果。
- 集成并改善Hue和Data Analytics Studio(DAS),从而减少了创建仪表板和数据可视化的时间,使它更易于非技术用户使用。
- 使用Cloudera Workload Experience Manager(Workload XM)对工作负载和成本进行智能优化从而降低混合云数据仓库部署成本。
2.5 Machine Learning
1.CDP DC提供支持CDSW - CDP-DC上的CDSW为我们最新的企业数据云平台上的数据科学团队提供了最佳的同类数据科学平台体验。
1)面向未来的现代化技术 - CDP-DC上的CDSW使您在云旅程的每个阶段都能获得连续的数据科学体验,从而为以后更快的适应Cloudera Machine Learning(CML)做好准备,CML是CDP私有云和公有云企业级云原生的数据科学和机器学习平台。
2.对实验和模型部署进行高级控制 - 能够在模型和实验构建中选择环境变量,为数据科学团队在测试和将模型部署到生产中时提供了更多控制权。数据科学团队现在可以在不考虑环境要求的情况下,以更高的精度管理工作流程并加快模型部署。
2.6 Operational Database
- 中型对象(MOB)的分布式压缩 - HBase一直支持中型对象,该对象允许数据库中使用达到10MB大小的对象(比如用于存储照片和视频)。此版本实现了分布式压缩,可提高性能并减少发生时对应用程序的影响。
- 使用Apache Ranger通过RBAC策略管理Phoenix表。
- HBase2中的Read Replica支持使你可以在预定义的毫秒窗口中访问数据,以确保在发生节点故障时100%的可用性。这实现了通过在中断期间提供时间轴一致性和分区一致性,而不是强一致性。
2.7 SDX
- 新工具支持从Navigator到Atlas的原地升级,当从CDH升级到CDP时。它会提取Navigator数据并将其转换为Atlas数据格式。
- 对元数据的改进支持包括搜索系统属性(技术元数据)的能力以及新的业务元数据功能(从Navigator的“托管元数据”功能迁移)。新功能包括批量导入业务术语表(Business Glossary),批量向实体分配业务元数据,清除实体的能力以及标签以及业务元数据的新授权能力。
- Impala的字段脱敏支持。使CDP增强了安全性,合规性和一致性,使企业能够以安全可靠的方式将更多的用户和用例带入现有的Impala数据库。
- 通过Ranger KMS和Key Trustee Server KMS集成提供企业级加密支持,增强了安全性。集成功能允许使用强化数据库或Key Trustee Server作为后备密钥库,从而提供选择和简化配置。
- Ranger KMS现在支持Cloudera Manager集成,KTS KMS ACL到Ranger KM策略迁移以及Key Trustee KMS到Ranger KMS KTS迁移等新功能。
- 静态数据的透明加密现在也已经支持,无需更改应用程序。
2.8 Cluster Management
1.Cloudera Manager 7.1提供了从CDH 5.13-5.16和HDP 2.6.5到CDP的原地升级。升级工具包括:
1.1)Ambari Blueprint到Cloudera Manager模板转换工具
1.2)公平调度迁移到容量调度
1.3)升级前验证检查,以评估升级准备情况
2.通过Apache Knox提供SSO和集群代理功能,包括Cloudera Manager本身在内的各种Web endpoint和APIs。
3.HDFS Upgrade Domains现在支持通过Cloudera Manager UI进行批量分配
4.Tagging Cloudera Manager可以通过API添加对标记主机,集群和服务的支持
5.Custom Linux cgroups可用于启动集群服务
6.现在可以显式配置FPGA设备以供YARN应用程序使用
7.Zookeeper进程间通信的端到端加密可保护Cloudera服务的所有元数据
2.9 Apache Ozone Beta
1.此CDP DC版本包括Ozone的beta1版本,Ozone是平台中兼容S3的对象存储,它提供了:
1.1)可扩展至十亿个对象规模
1.2)原生的Hadoop API和S3 API
1.3)提供对小文件的更好处理
2.与Ozone Tech Preview相比,此版本包括:
2.1)支持十亿个对象
2.2)调优,增强可伸缩性,稳定性,性能改进和高可用性。
2.3)此外,还包括对Hive和Spark的原生支持
2.10 Platform Certifications
- Operating Systems: RHEL / CENTOS / OEL 7.6, 7.7
- Java Runtime: OpenJDK 1.8, OpenJDK 11, Oracle JDK 11
- Backend Databases: This release adds support for MySQL 5.7, Oracle 12 (Fresh install only), MariaDB 10.2, and Postgres 10
下载试用CDP Data Center
1.访问试用下载链接,注意你需要注册cloudera.com的账号,并登陆。
https://www.cloudera.com/downloads/cdp-data-center-trial.html
2.点击TRY NOW
3.这时你可以获得CM7与CDH7试用版的地址如下:
https://archive.cloudera.com/cdh7/
https://archive.cloudera.com/cm7/