Oracle 数据库 JOB 失败后的重试规律解密-CFANZ编程社区

由于官方文档上没有找到相关的说明，所以这里进行了如下测试，为了找到oracle数据库中 job 失败后重试时间的规律。

数据库版本：11.2.0.3

测试说明：这里创建了一个日志表以及一个运行时必定出错的procedure，用于job的运行。这里只要记录下每次job执行时视图user_jobs 中的 next_date就可以推断出job 执行失败后的重试规律。

为了测试job的重试规律我做了如下工作

日志表以及序列：

1. create table job_exec_logs (id number ,current_date date , next_date date ,failures number ,broken varchar2( 2)) ;  
2.   
3. create sequence seq_job_exec_logs_id ;

测试procedure

1. create or replace procedure pro_my_test is  
2. begin  
3.   insert into job_exec_logs select  
4. seq_job_exec_logs_id.nextval , sysdate , next_date , failures , broken from user_jobs ;  
5.   commit ;  
6.   execute immediate 'select * from ddddsfs' ;  
7. end ;

其中ddddsfs表示不存在的，也就是说只要运行pro_my_test存储过程到最后都会出错（但是日志表还是可以正常插入进去的）

创建job：

1. var job number ;  
2. begin  
3.   sys.dbms_job.submit(job => :job,  
4.                       what => 'pro_my_test ;',  
5.                       next_date => sysdate,  
6.                       interval => 'sysdate+5' );  
7.   commit;  
8. end;  
9. /

其实整个测试过程没什么可说的，让job自动运行即可，但是需要等待job下次重试时间。

最后测试的结果：

1. dexter@REPO>select trunc((next_date-lag(next_date,1) over (order by 4))*24*60) from (  
2.   2  select * from job_exec_logs  
3.   3  union all  
4.   4  select 11111, sysdate , next_date ,failures , broken from user_jobs  
5.   5  order by 4 nulls first) ;  
6.   
7. TRUNC((NEXT_DATE-LAG(NEXT_DATE,1)OVER(ORDER BY 4))*24*60)  
8. -------------------------------------------------------  
9.   
10.                                                       2  
11.                                                       4  
12.                                                       8  
13.                                                      15  
14.                                                      32  
15.                                                      64  
16.                                                     128  
17.                                                     256  
18.                                                     512  
19.                                                    1024  
20.                                                    1440  
21.                                                    1440  
22.   
23. 已选择13行。

如上结果以及笔者的其他测试可以判断出：

1、每次重试时间都是递增的，第一次2分钟，4分钟，8分钟，16分钟 ... 依此类推。

2、当超过1440分钟，也就是24小时的时候，固定的重试时间为1天。

3、笔者还经过其他实验得知，超过16次重试后，job 就会被标记为broken ，next_date 为4000-1-1，也就是不再进行job重试。

4、oracle数据库重试的时间到达设定的下次执行时间后，以设定的job执行时间为准。

想要了解更多，可以看下metalink

Broken Jobs and the Job Queue (文档ID 103349.1)