0
点赞
收藏
分享

微信扫一扫

【大数据】-- 创建 Paimon 外部表


       如今,在数据湖三剑客(delta lake、hudi、iceberg)之上,又新出一派: apache paimon。我们恰好在工作中遇到,以下介绍在 dataworks 上,使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考:创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

1、前提条件

  • 当前执行操作的账号已具备创建MaxCompute表(CreateTable)的权限。更多表权限信息,请参见MaxCompute权限。
  • 已创建MaxCompute项目。具体操作,请参见创建MaxCompute项目。
  • 已创建存储空间(Bucket)以及对应的文件目录。具体操作,请参见创建存储空间。

2、注意事项

  • 当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表,您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。
  • Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。
  • Paimon外部表不支持cluster属性。

3、步骤

步骤一:在MaxCompute项目中上传Paimon插件

选择以下其中一种方式,在已创建的MaxCompute项目中上传Paimon插件。

方法一:在 dataworks 上创建

【大数据】-- 创建 Paimon 外部表_SQL

方法二:在 odpscmd 客户端创建

【大数据】-- 创建 Paimon 外部表_自定义_02

步骤二:通过Flink创建MaxCompute Paimon外部表

  1. 登录实时计算控制台,创建自定义Catalog类型。创建自定义Catalog类型操作详情,请参见创建自定义Catalog类型。
    说明
    创建自定义Catalog类型,需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接,请参见下载链接。
  2. 在创建完自定义Catalog类型后,在自定义Catalog页签,单击刚创建好的自定义Catalog类型 paimon-06-1,然后单击下一步
  3. 填写Catalog代码信息及参数值后,单击确定

CREATE CATALOG `<catalog name>` WITH (
  'type' = 'paimon-06-1',
  'metastore' = 'maxcompute',
  'warehouse' = '<warehouse>',
  'fs.oss.endpoint' = '<oss endpoint>',
  'fs.oss.accessKeyId' = '<oss access key id>',
  'fs.oss.accessKeySecret' = '<oss access key secret>',
  'maxcompute.endpoint' = '<maxcompute endpoint>',
  'maxcompute.accessid' = '<maxcompute access id>',
  'maxcompute.accesskey' = '<maxcompute access key>',
  'maxcompute.project' = '<maxcompute project>',
  'maxcompute.oss.endpoint' = '<maxcompute oss endpoint>'
);

4.创建Paimon外部表。

  1. 云数据管理页面,选择paimon-06-1 > default,然后单击创建表,如下图所示。
  2. 添加表对话框,选择Apache Paimon连接器,然后单击下一步
  3. 执行以下语句,单击确定。本文以创建test_tbl为例。

CREATE TABLE `catalogname`.`default`.test_tbl (
    dt STRING,
    id BIGINT,
    data STRING,
    PRIMARY KEY (dt, id) NOT ENFORCED
) PARTITIONED BY (dt);

  1. SQL 开发页面,创建包含如下语句的SQL作业,部署并运行作业。关于如何创建并运行SQL作业详情,请参见SQL作业开发。

INSERT INTO `catalogname`.`default`.test_tbl VALUES ('2023-04-21', 1, 'AAA'), ('2023-04-21', 2, 'BBB'), ('2023-04-22', 1, 'CCC'), ('2023-04-22', 2, 'DDD');

说明

  • 请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。
  • 若SQL作业有限流作业(例如执行INSERT INTO ... VALUES ...语句),需要在作业运维页面,编辑运行参数配置,在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true代码。关于如何配置作业的运行参数详情,请参见配置作业部署信息。

步骤三:通过MaxCompute读取Paimon外部表

  1. 通过使用本地客户端(odpscmd)连接或其他可以运行MaxCompute SQL的工具,执行以下命令。

SET odps.sql.common.table.planner.ext.hive.bridge = true;
SET odps.sql.hive.compatible = true;

  1. 执行以下命令,查询MaxCompute Paimon外部表test_tbl。

SELECT * FROM test_tbl WHERE dt = '2024-02-21';

返回结果如下。

+------------+------------+------------+
| id         | data       | dt         |
+------------+------------+------------+
| 1          | AAABB        | 2024-02-21 |
| 2          | BBBCC        | 2024-02-21 |
+------------+------------+------------+

举报

相关推荐

0 条评论