03_美国医疗保健行业的数据介绍

美国医疗保健行业的数据介绍

在这篇里我会介绍一下医疗保健行业的数据。当患者开始告诉医生他或她的状况时，临床数据收集过程开始。这被称为患者病史，由于医生没有直接观察到它，而是由患者重新叙述，因此患者的故事被称为主观信息。相反，客观信息来自医师，包括医师自身对患者的观察结果，从体格检查，实验室检查和影像学研究到其他诊断程序。主观和客观信息共同构成了临床记录。医疗保健中使用了几种类型的临床笔记。历史和身体状况（H＆P）是最详尽，最全面的临床记录。通常是在门诊医生第一次去看病人或病人首次入院时获得的。从患者那里收集所有数据并在医院计算机上键入H＆P，单个患者可能总共需要1-2个小时。通常，每次医生/医院入院一次H＆P。对于连续的门诊就诊，或持续几天的住院治疗，将编写简短的临床记录。这些被称为进度记录或SOAP记录（SOAP代表主观，目标，评估和计划）。在这些注释中，重点是自最初的H＆P或上一个进度注释以来发生的事件。在患者数据出现在数据库中之前，它需要很长的时间，从医师团队解释的患者历史开始。患者故事与来自不同临床部门的其他信息（例如，实验室，影像学）相结合，以形成电子健康记录（EHR）。当医院希望将数据提供给第三方以进行进一步分析时，通常会以数据库格式将数据发布到云中。

一旦在数据库系统中捕获了数据，分析专业人员便可以使用各种工具来可视化，透视，分析和构建预测模型：
03_美国医疗保健行业的数据介绍
如前所述，SOAP注释通常是每天为住院患者做的，并且每个字母的首字母缩写部分都包含一个部分：主观，客观，评估和计划（SOAP）。主观部分重点介绍患者在前一天晚上有或曾经有过的任何新抱怨。目标部分包括每天的重点身体检查和实验室检验结果，成像以及前一天的测试结果。评估和计划与H＆P的评估和计划相似，它是根据以前的记录更新的，其中考虑了当天的所有事件。在笔记记录过程的最后，有关患者的宝贵信息已收集并记录在EMR中。但是，在将数据制成表格之前，通常将其与临床编码集集成在一起。现在让我们来讨论一下临床编码。

在医疗保健中，重要的实体（例如疾病，程序，实验室测试，药物，症状，细菌种类）也具有名称和身份。但是，当医疗保健行业的工作人员将同一实体与不同的身份相关联时，就会出现问题。例如，一个医生可以将“心力衰竭”称为“充血性心力衰竭”，而另一位医生可以将其称为“ CHF”。同样，特异性水平也有所不同：第三位医生可能称其为“收缩性心力衰竭”，以表明功能障碍是在心跳的收缩期发生的。在医学中，准确性和特异性至关重要。我们如何确保医疗团队的所有成员都在谈论和思考同一件事？答案在于临床规范。可以将临床代码视为医学概念的唯一标识。每个代码通常由一对对象组成：字母数字代码和该代码表示的实体的语言描述。例如，在ICD10-CM编码系统中，代码I50.9表示“未确认的心脏故障”。有其他更具体的代码可以表示已知的更具体的心力衰竭诊断。世界上可能有成千上万种不同的编码系统，其中许多仅在构思它们的特定医疗机构中使用。幸运的是，为了减轻混乱并促进互操作性，有几种众所周知的编码系统被视为国家/国际标准。一些更重要的标准化编码系统包括用于医学诊断的国际疾病分类（International Classification of Disease，ICD），用于医学程序的当前程序术语（Current Procedural Terminology， CPT），用于实验室测试的逻辑观察标识符名称和代码（Logical Observation Identifiers Names and Codes ，LOINC），用于医学检验的国家药品代码（National Drug Code ，NDC）药物疗法，以及所有上述以及其他方面的系统化医学术语（Systematized Nomenclature of Medicine，SNOMED）

International Classification of Disease (ICD)

疾病和状况通常使用ICD编码系统进行编码。 ICD始于1899年，每10年修订一次，由世界卫生组织（WHO）进行维护。截至2016年，第十个修订版（ICD-10）是最新的，它包含超过68,000个唯一的诊断代码，比以前的任何修订版都多。ICD-10代码最多可以包含八个字母数字字符。前三个字符表示主要疾病类别；例如，“ N18”表示慢性肾脏疾病。这些字符后接一个点号，然后是其余字符，可以提供大量的临床细节。例如，代码“ C50.211”指定“右女性乳房的上内象限的恶性肿瘤”。 ICD-10凭借其所有的精度，促进了分析在医疗保健中的应用。

Current Procedural Terminology (CPT)

使用CPT编码系统对医疗，外科，诊断和治疗程序进行编码。 CPT代码由美国医学协会（AMA）开发，由四个数字字符和第五个字母数字字符组成。常用的CPT代码包括用于门诊就诊，外科手术，放射线检查，麻醉程序，病史和体格检查以及新兴技术的代码。与ICD不同，CPT不是分层编码系统。但是，某些概念根据诸如就诊时间（对于门诊就诊）或切除的组织数量（对于外科手术）等因素具有多个代码。

Logical Observation Identifiers Names and Codes (LOINC)

实验室测试和观察结果使用LOINC编码系统进行编码。由Regenstrief Institute编写和维护，有70,000多个代码，每个代码都是一个六位数的数字，最后一个数字由其他数字和连字符分隔。像CPT代码一样，特定类型的实验室测试（例如，白细胞（WBC）计数）通常具有多个代码，这些代码根据样品的时间，测量单位，测量方法等而有所不同。尽管每个代码都包含大量信息，但是当并非所有相关信息都已知时，尝试为实验室测试查找代码（例如WBC计数）时可能会出现问题。

National Drug Code (NDC)

NDC由美国FDA维护。每个代码为10位数字，并包含三个子部分：标签组件，用于标识药物的制造商/分销商；产品成分，可从标签上识别出实际药物，包括强度，剂量和配方；包装代码，用于标识特定的包装形状和尺寸。综上所述，这三个子组件可以唯一地标识FDA批准的任何药物。

Systematized Nomenclature of Medicine Clinical Terms (SNOMED-CT)

SNOMED-CT是一个巨大的编码系统，可以唯一地识别300,000多个临床概念。这些概念可能是疾病，程序，实验室，药物，器官，传染原，感染，症状，临床发现等。此外，SNOMED-CT在这些概念之间定义了130万种以上的关系。 SNOMED-CT由美国国立卫生研究院（NIH）维护，是甚至更大的编码系统SNOMED的子集，SNOMED-CT包含与临床实践无关的概念。 NIH有一个名为MetaMap（https://metamap.nlm.nih.gov/）的软件程序，该程序可用于标记文本中出现的临床概念，从而使其对医疗保健中的自然语言处理非常有用。尽管编码系统无法唯一地识别每个临床概念及其所有变体和细微差别，但它们却相距很近，从而使某些医学活动（尤其是计费和分析）变得更加容易。