【人工智能】Transformers之Pipeline（十）：视频分类（video-classification）-CFANZ编程社区

【人工智能】Transformers之Pipeline（十）：视频分类（video-classification）

Apache Hudi（Hadoop Upserts Deletes and Incrementals）是一个数据管理框架，它帮助你高效地管理存储在分布式存储系统（如HDFS或云存储）上的大型数据集。其一个关键特性是“时间旅行”，这允许你在特定时间点查询数据的历史版本。

Apache Hudi中的时间旅行使你可以查询数据的旧版本，这对于执行审计、调试或简单地理解数据是如何随时间演变的非常有用。Hudi通过维护数据的历史版本实现这一功能，使你能够查询这些过去的状态。

当你将数据导入到一个Hudi数据集时，框架会自动为数据创建版本。每个版本由一个唯一的提交时间戳标识，该时间戳记录在Hudi的元数据中。通过在查询中指定提交时间戳或提交ID，你可以检索在那个特定时间的数据集。

例如，如果你想查看昨天的数据样子，你可以使用昨天的时间戳查询数据集。

在Spark SQL或Presto中，你可以使用as.of.instant查询选项对Hudi表执行时间旅行查询。以下是一个示例：

SELECT * FROM hudi_table AS OF INSTANT

0 条评论