1
点赞
收藏
分享

微信扫一扫

有MIMIC数据却不知道从何开始?从DIAGNOSES_ICD表开始(五)

在这里插入图片描述

​想要轻松玩转MIMIC,从哪里开始?

那就是 -> 查找特定疾病的确诊患者
  解释:想要利用MIMIC医学数据做相关医学研究的,作者认为有一类模式即
确诊疾病+研究阶段+实验方法

  确诊疾病是首要目的。必须针对某一疾病或者某类疾病,做相关处理或者统计数据以此来研究某一疾病或某类疾病的发病情况、治疗手段、用药情况等。
  研究阶段是方向。研究可以从预前和预后两个阶段着手。预前对某一类疾病做诊断,针对患者临床特征分析其患病概率,或者在图像处理领域,分析其病灶等。预后可对患者的再住院率、死亡率做相关性分析,分析什么样的患者,什么样的治疗手段可以减缓其死亡。
  实验方法是手段。可以通过药物治疗和手术治疗来减缓病情或者改善患者病情,针对患者是否服用过某类药物或者患者是否进行过某类手术,来分析治疗对其的影响。
总的来说,上述所提均可通过MIMIC数据库展开。但第一步是确定疾病,查找患者。


​ 如何查找确诊疾病?(以糖尿病为例)

利用DIAGNOSES_ICD查找特定疾病的患者。

DIAGNOSES_ICD表
  描述:该表主要记录了患者的ICD编码,其主要是为了住院结算时使用。但可以用其来挖掘患有某类疾病的患者。
  链接关系
  DIAGNOSES_ICD表的SUBJECT_ID来源于PATIENTS
  DIAGNOSES_ICD表的HADM_ID来源于ADMISSIONS
  DIAGNOSES_ICD表的ICD9_CODE来源于D_ICD_DIAGNOSE
  说明
  DIAGNOSES_ICD表相对于其他表格来说较为简单。表结构如下。

列名类型含义
ROW_IDINT行号
SUBJECT_IDINT患者ID
HADM_IDINT住院ID
SEQ_NUMINT确诊疾病顺序
ICD9_CODEVARCHAR(10)ICD9编码

  表中SEQ_NUM的含义是确诊疾病的顺序,即该疾病是第几主断病。一位患者可能存在几种相关疾病或者由一种疾病引发了很多种疾病,如一位患者,其第一主断病可能是高血压慢性肾病(40391),其他伴随性疾病可能是外周血管疾病(9972)等。那么这位患者信息可能如下所示。

ROW_IDSUBJECT_IDHADM_IDSEQ_NUMICD9_CODE
256107064140391
2761070643​9972

  代码:以查找未提及并发症的II型糖尿病患者为例。

  小tip:如果你不知道未提及并发症的II型糖尿病的ICD9代码,你可以先利用D_ICD_DIAGNOSE字典表[可点击查看字典详述]模糊查找出糖尿病(’%diabetes%’’)所对应的ICD9代码,然后再详细对比查找未提及并发症的II型糖尿病患者。

SELECT DISTINCT (subject_id)
FROM diagnoses_icd 
WHERE icd9_code = '25000'

​  利用上述代码,可知数据库中共有7370位患者,患有未提及并发症的II型糖尿病。再利用SEQ_NUM属性,可以查看一下这7370位患者,以该病作为第一主断病的有多少。

SELECT DISTINCT (subject_id)
FROM diagnoses_icd 
WHERE icd9_code = '25000' and seq_num=1

​  哈哈哈哈,很遗憾…以该病作为第一主断病的只有4位患者。分别为12706、13144、24568、32156患者。但是如果你觉得这种疾病作为其第二主断病或者第三主断病都可以的话,那么就可以扩大seq_num的限制。当设置seq_num<=5时,共存在1940位患者。
此外,一位患者的主断病可能随着时间改变,如402患者。可以从一个患者拥有不同的hamd_id查找。

SELECT subject_id
FROM diagnoses_icd 
GROUP BY subject_id
HAVING "count"(DISTINCT hadm_id)>=2
你知道一位患者一次住院期间,能被诊断出多少种疾病吗?

39种!!!
SELECT subject_id,hadm_id,"count"(DISTINCT icd9_code) as num
FROM diagnoses_icd  
GROUP BY subject_id,hadm_id
ORDER BY num DESC
你知道除了查找某种疾病的确诊患者,DIAGNOSES_ICD还能做什么吗?
并发症分析

​  以未提及并发症的II型糖尿病患者12706为例,其并发症包括

  • 未指明的蛋白质热量营养不良
  • 未特指的原发性高血压
  • 充血性心力衰竭,未指明
  • 其他肺气肿
  • 未明确的胸腔积液
  • 未明确的急性肾功能衰竭
  • 未特指的肾脏和输尿管疾病
  • 腹痛,未指定部位

   ​从数据可以看出,不同的II型糖尿病患者拥有不同的并发症,但是心血管类疾病多见于此类患者的并发症中。在治疗其主断疾病的基础上,多关注其高发并发症的出现,可以减少患者治疗成本,提高患者治愈率。
​   这就是作者主要了解的DIAGNOSES_ICD表用途。如果各位科研工作者们还有更加出色的DIAGNOSES_ICD挖掘点,欢迎留言讨论~
在这里插入图片描述

举报

相关推荐

1 条评论

作者你好,请问“表中SEQ_NUM的含义是确诊疾病的顺序,即该疾病是第几主断病。”这句话中的判断是否有参考文献或者书籍,或者参考的网址?非常期待您的回复。