0
点赞
收藏
分享

微信扫一扫

airflow HiveOperator实例

yellowone 2022-06-17 阅读 69

此实例的测试环境是airflow部署在服务器而不是部署在容器

 

hive 是基于 Hadoop 的一个​​数据仓库​​工具,可以将结构化的数据文件映射为一张数据库表,

并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任

务进行运行。在 airflow 中调用 hive 任务,首先需要安装依赖

 

pip install apache-airflow[hive]

 

 


编写dag文件

from airflow import DAG
from airflow.operators import HiveOperator
from datetime import datetime, timedelta
from airflow.models import Variable
from airflow.operators import ExternalTaskSensor
from airflow.operators import EmailOperator

default_args = {
'owner': 'airflow',
'depends_on_past': False,
'start_date': datetime(2019, 6, 1),
'email': ['810905729@qq.com'],
'email_on_failure': False,
'email_on_retry': False,
'retries': 1,
'retry_delay': timedelta(minutes=1),
'end_date': datetime(9999, 1, 1),
}

dag = DAG('dw_ly', default_args=default_args, schedule_interval='30 10 * * *', catchup=False)

t1 = HiveOperator(
task_id='dw_ly',
hql='select * from test1.employee ',
dag=dag)
t1

 

   

举报

相关推荐

0 条评论