【大数据】-- 创建 Paimon 外部表-CFANZ编程社区

如今，在数据湖三剑客（delta lake、hudi、iceberg）之上，又新出一派： apache paimon。我们恰好在工作中遇到，以下介绍在 dataworks 上，使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考：创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

1、前提条件

当前执行操作的账号已具备创建MaxCompute表（CreateTable）的权限。更多表权限信息，请参见MaxCompute权限。
已创建MaxCompute项目。具体操作，请参见创建MaxCompute项目。
已创建存储空间（Bucket）以及对应的文件目录。具体操作，请参见创建存储空间。

2、注意事项

当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表，您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。
Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。
Paimon外部表不支持cluster属性。

3、步骤

步骤一：在MaxCompute项目中上传Paimon插件

选择以下其中一种方式，在已创建的MaxCompute项目中上传Paimon插件。

方法一：在 dataworks 上创建

【大数据】-- 创建 Paimon 外部表_SQL

方法二：在 odpscmd 客户端创建

【大数据】-- 创建 Paimon 外部表_自定义_02

步骤二：通过Flink创建MaxCompute Paimon外部表

登录实时计算控制台，创建自定义Catalog类型。创建自定义Catalog类型操作详情，请参见创建自定义Catalog类型。
说明
创建自定义Catalog类型，需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接，请参见下载链接。
在创建完自定义Catalog类型后，在自定义Catalog页签，单击刚创建好的自定义Catalog类型 paimon-06-1，然后单击下一步。
填写Catalog代码信息及参数值后，单击确定。

CREATE CATALOG `<catalog name>` WITH (
  'type' = 'paimon-06-1',
  'metastore' = 'maxcompute',
  'warehouse' = '<warehouse>',
  'fs.oss.endpoint' = '<oss endpoint>',
  'fs.oss.accessKeyId' = '<oss access key id>',
  'fs.oss.accessKeySecret' = '<oss access key secret>',
  'maxcompute.endpoint' = '<maxcompute endpoint>',
  'maxcompute.accessid' = '<maxcompute access id>',
  'maxcompute.accesskey' = '<maxcompute access key>',
  'maxcompute.project' = '<maxcompute project>',
  'maxcompute.oss.endpoint' = '<maxcompute oss endpoint>'
);

4.创建Paimon外部表。

在云数据管理页面，选择paimon-06-1 > default，然后单击创建表，如下图所示。
在添加表对话框，选择Apache Paimon连接器，然后单击下一步。
执行以下语句，单击确定。本文以创建test_tbl为例。

CREATE TABLE `catalogname`.`default`.test_tbl (
    dt STRING,
    id BIGINT,
    data STRING,
    PRIMARY KEY (dt, id) NOT ENFORCED
) PARTITIONED BY (dt);

在SQL 开发页面，创建包含如下语句的SQL作业，部署并运行作业。关于如何创建并运行SQL作业详情，请参见SQL作业开发。

INSERT INTO `catalogname`.`default`.test_tbl VALUES ('2023-04-21', 1, 'AAA'), ('2023-04-21', 2, 'BBB'), ('2023-04-22', 1, 'CCC'), ('2023-04-22', 2, 'DDD');

说明

请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。
若SQL作业有限流作业（例如执行INSERT INTO ... VALUES ...语句），需要在作业运维页面，编辑运行参数配置，在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true代码。关于如何配置作业的运行参数详情，请参见配置作业部署信息。

步骤三：通过MaxCompute读取Paimon外部表

通过使用本地客户端（odpscmd）连接或其他可以运行MaxCompute SQL的工具，执行以下命令。

SET odps.sql.common.table.planner.ext.hive.bridge = true;
SET odps.sql.hive.compatible = true;

执行以下命令，查询MaxCompute Paimon外部表test_tbl。

SELECT * FROM test_tbl WHERE dt = '2024-02-21';

返回结果如下。

+------------+------------+------------+
| id         | data       | dt         |
+------------+------------+------------+
| 1          | AAABB        | 2024-02-21 |
| 2          | BBBCC        | 2024-02-21 |
+------------+------------+------------+