在epidemiology, pharmacovigilance, health economics and outcomes research中的专业知识
Command of advanced statistical techniques for large-scale modeling and exploratory analysis
本体管理和标准化术语利用Informatics experience with ontology management and leveraging standard terminologies for analysis
编程知识技巧Technical/programming skills to implement design and develop a scalable solution
步骤:
培训OMOP CDM 和术语 Vocabulary
讨论有了CDM之后要进行哪些数据分析
评估技术需求
讨论数据字典和原始数据库
对源数据库进行扫描
初步分析业务逻辑
a. 表层面
b. 字段层面 level
c. 术语层面
d. 记录转换中丢失的数据
形成数据样本供初步分析
完成设计后再实现
A successful ETL requires a village; don’t make one person try to be the hero and do it all themselves
o Team design
o Team implementation
o Team testing
Document early and often, the more details the better
Data quality checking is required at every step of the process
Don’t make assumptions about source data based on documentation; verify by looking at the data
Good design and comprehensive specifications should save unnecessary iterations and thrash during implementation
ETL design/documentation/implementation is a living process. It will never be done and it can always be better. But don’t let the perfect be the enemy of the good
数据标准化
对于协作式、大规模的研究分析而言,数据的标准化是至关重要的,也就是说所有数据是否拥有同样的格式
机构间的数据千差万别,数据采集的目的也各异,数据存储的格式也不同, 不同机构间所采用的术语也会导致同样的概念有不同的表达方式,
OHDSI采用OMOP CDM数据模型. 也提供了将各自的数据库转换成CDM的工具和资源,提供了基于CDM数据模型之上的数据分析工具
1、OMOP Common Data Model数据模型
统一的数据模型是异构数据库进行系统分析的基础。 The Observational Medical Outcomes Partnership (OMOP) CDM,已经演化到第5个版本。
2、CDM教程
3、术语资源
标准化术语是基础工具, OMOP 术语: http://omop.org/vocabularies 见下表
Query vocabulary: http://vocabqueries.omop.org/
4、构建自己的CDM
前提条件:
步骤: