摘要
背景和目的:2019年冠状病毒病(COVID-19)大流行导致神经成像容量减少。我们的目的是利用放射学报告的自然语言处理,量化大流行期间CT或MR成像检测到的急性或亚急性缺血性中风的变化。
材料与方法:我们回顾性分析了2017年至2020年每年3月1日至4月30日在综合卒中中心进行的32,555份脑ct和mri报告,涉及20,414名独特患者。为了在自由文本报告中检测急性或亚急性缺血性中风,我们使用1987年随机抽样的带有人工注释的放射学报告训练了一个随机森林自然语言处理分类器。使用来自外部数据集的1974年图像报告评估了自然语言处理分类器的泛化性。
结果:自然语言处理分类器实现了5倍交叉验证的分类精度为0.97,F1评分为0.74,在交叉验证中,急性或亚急性缺血性中风的实际数量略有低估(- 5%)。重要的是,按年份分层的交叉验证效果是相似的。将该分类器应用于完整的研究队列,我们发现,2020年3月至4月CT或MR成像报告的急性或亚急性缺血性中风患者比2017-2019年同期的平均值减少了约24%。在有卒中相关顺序适应症的患者中,经神经影像学检查发现急性或亚急性缺血性卒中的估计比例从2017-2019年的16%显著增加到2020年的21% (P = . 01)。自然语言处理分类器在外部数据上表现较差。
结论:在新冠病毒-19大流行期间,通过神经影像学检测到的急性或亚急性缺血性中风病例有所减少,尽管为中风订购的研究中有较高比例对急性或亚急性缺血性中风呈阳性反应。自然语言处理方法可帮助自动跟踪急性或亚急性缺血性中风病例,用于流行病学研究然而,由于放射科医生报告方式的差异,局部分类器训练很重要。
缩写:
- 网络多媒体
- 急性或亚急性缺血性中风
- 新型冠状病毒肺炎
- 2019冠状病毒疾病
- NLP
- 自然语言处理
有关于冠状病毒病2019(COVID-19)对脑卒中医疗质量,包括医院的能力,临床资源重新分配,以及患者和医生的安全问题大流行的影响备受关注。1,2此前的报告显示,在大流行期间,中风神经成像体积大幅下降。3.,4此外,在许多COVID-19住院患者的神经影像学研究中发现了急性缺血性梗死,但因果关系尚不清楚。5,6像这些和其他流行病学研究分析,通常依赖于手工创作策划的数据库,在这种情况下识别可能是费时且难以实时更新。以促进这种研究的一个方法是使用自然语言处理(NLP),其已经显示出实用程序,用于放射学报告数据的自动分析。7NLP算法以前已经开发用于对缺血性卒中发现和急性缺血性卒中亚型的神经放射学报告进行分类。8,9因此,NLP具有促进COVID-19研究的潜力。
在这项研究中,我们开发了一种NLP机器学习模型,对急性或亚急性缺血性卒中(ASIS)的影像学报告进行分类,而不是慢性卒中。我们使用该模型量化了在美国COVID-19大流行期间,在一家大型综合性中风中心进行的所有CT或MR成像研究中检测到的ASIS的变化。我们还评估了NLP模型的通用性和不同的训练策略,使用了来自第二中风中心的放射学报告样本。
材料和方法
该回顾性研究获得了马萨诸塞州综合医院(Massachusetts General Brigham, Boston, Massachusetts)机构审查委员会的知情同意豁免,该机构审查委员会包括马萨诸塞州综合医院和布里格姆妇女医院(Brigham and Women’s Hospital)。
放射学报告提取
我们使用基于医院的定制放射学报告搜索工具,提取2017年至2020年每年3月1日至4月30日在马萨诸塞州总医院(医院1)及其附属成像中心(综合中风中心)进行的头部CT和脑磁共振成像研究报告。在这家医院,头部CT和脑MR成像研究是中风患者的常规检查。头颅CT包括头颅CT和CT血管造影的非增强和增强研究。脑核磁共振成像包括非对比和增强的脑核磁共振成像和磁共振血管造影研究。剔除数据库中存储的外部影像学研究后,头颅CT报告15627份,脑MR报告17151份(共32778份)。在这些研究中,15590份头部CT和16965份脑MR成像报告研究了“Impressions”,这将分析数据集的比例分别限制在98.9%和99.8%。这些研究形成了综合研究队列,其中包括20414例独特患者的32,555份脑MR成像和头部CT报告。
提取的原始32778研究报告,1000头部CT和1000项大脑MR成像研究,随机取样用于人工注释作为训练和测试数据用于NLP机器学习模型。在这些研究中,1987年的研究包含曝光(99.4%)。没有研究印象研究结果多为小儿脑磁共振成像研究,涉及不同的结构报告。
使用商业放射信息系统(原始/ Nuance通信),我们也获得来自布莱根妇女医院(医院2)及其附属成像中心(还有全面的行程中心)放射学报告的附加数据集。我们分析了参与医院1和2的第一个500个连续头部CT和第一500脑核磁共振在2019年4月和2020年4月进行两者之间的这些报告的听写放射科医师和学员的重叠获得(总共1000点头部的CT和1000份大脑MR成像研究报告),与非增强和对比度增强的研究,以及血管造影研究相同的纳入标准。所有这些报告有研究印象。在此数据集(26,1.3%)删除重复研究的条目后,1974头部CT和脑磁共振成像报告保持用于进一步分析。
NLP训练数据集注释
对于NLP模型训练,1987年从医院1取样的研究报告和1974年从医院2获得的研究报告都是手工标注的,每一份报告都由放射科住院医师进行诊断(F.D.用于医院1的CT和m.l用于医院2的CT和MR成像,m.d.l用于医院2的CT和MR成像)。注释人员使用“Impression”研究对每一份ASIS报告进行分类。这一发现可以在报告中明确或含蓄地陈述,而陈述或暗示梗死慢性的报告不被认为有这一发现。例如,“老”或“慢性”梗死表明慢性,尽管有时会发现更模糊的术语,如“年龄不确定”或“时间框架不明确”。术语不明确的报告不认为有ASIS,除非在报告中表达了新的内容(如“新年龄不确定梗死”)。
NLP机器学习模型训练与测试
我们训练了一个随机森林机器学习模型,以放射学报告的自由文本印象作为输入,并对报告是否存在ASIS进行分类。为了训练机器学习模型自动解析放射学报告文本,我们使用再保险(Version 2.2.1),sklearn(版本0.20.3),nltk(版本3.4)Python包(版本3.7.1)。在模型训练之前,我们使用正则表达式从每个study Impression中提取含有梗“梗塞”或“ischem”的句子。这一步有助于将算法集中在包含与分类任务相关内容的句子上。摘取的句子中的单词都是用“雪球”来代替的。EnglishStemmer从nltk包中。然后用n -g词袋向量化将抽取的句子和词根句子表示为向量(n= 2 - 3;最小词频,1%),一种以前用于放射学报告自然语言处理的方法。10否定是用nltkmark_negation函数,它在出现在否定词和标点符号之间的单词之间添加“_NEG”后缀。这些放射学报告Impression的向量表示作为随机森林NLP分类器的输入。
中使用默认超参数对随机森林神经lp分类器进行训练sklearn,版本0.20.3,包括森林中的100棵树,使用Gini杂质测量数据分割的质量。使用来自医院1和医院2的手工标注数据集,我们评估了两种训练策略。首先,我们使用医院1标注的数据集训练了一个分类器,并在分类不平衡的情况下,使用5倍交叉验证、结果分层(ASIS)来测试性能。我们还在外部医院2注释数据集上测试了这个分类器。其次,我们使用医院1和医院2的注释数据集训练分类器,并使用5倍交叉验证测试性能,也对结果进行分层,但在交叉验证中只包括医院1的报告,以具体评估医院1数据的性能。在交叉验证中,我们只使用医院2的报告重复了这个测试,以具体评估医院2数据的表现。当使用合并医院1和2数据集进行分类器训练时,N-gram最小项频率减半至0.5%;在经验上,这个分类器与仅在医院1数据上训练的分类器之间的N-gram项的数量是相似的。训练这些随机森林分类器的Python代码可在github.com/QTIM-Lab/asis\u nlp.
用于评估模型性能的指标包括准确性、精密度、召回率和F1分数。对CT和MR成像报告组合、单独CT报告和单独MR成像报告的性能进行评估,适当时进行5倍交叉验证。
NLP-Based流行病学分析
在NLP模型测试的结果的基础上,一个NLP分类器然后被施加到的从医院1 32555大脑MR成像和头部CT报告的完整队列来估计患者ASIS数。与至少1个神经影像学(CT或MR成像)与在有关所述时间段的ASIS患者被认为有过梗塞。与阅片报告文本中提取与这些病人相关联的人口统计信息。
统计数据
统计检验是使用松软的Python版本1.1.0包。皮尔森的χ2适当时采用独立检验和单因素方差分析。统计显著性是预先确定的P < . 05。性能指标被报告为具有95%置信区间的bootstrap中值估计。11
结果
手动注释的放射报告数据集特征
在1987年随机抽样的1号医院用于NLP模型建立的神经影像学报告中,67例头部CT和68例脑MR影像学报告被手工分类为ASIS阳性(1904年共有129例患者为阳性)。在1974年来自医院的神经影像学报告中,有2,84例头部CT和91例脑MR影像学报告被手工分类为ASIS阳性(1514例独特患者中101例为阳性)。其余的研究对ASIS阴性。在医院1注释报告数据集中,126名放射科医生和实习生(住院医生和研究员)参与了这些报告的听写。在医院2个注释的报告数据集中,有94名放射科医生和实习生参与其中。由于放射科医生/受训者在不同机构之间流动,这两个数据集之间有3名放射科医生和受训者的重叠。医院1和医院2的报告都是没有标准结构的自由文本。阅读Impressions报告的手工注释者发现,不同医院的报告在风格上有所不同。
NLP模型性能
在线补充数据中总结了随机森林NLP分类器的测试性能。在医院1注释数据集上训练的NLP分类器的分层5倍交叉验证性能显示平均准确度为0.97(95%CI,0.96–0.97),F1得分为0.74(95%CI,0.72–0.76)。在医院2注释数据集上测试NLP分类器时,性能较低,准确度为0.95(95%CI,0.94–0.96),F1得分为0.66(95%CI,0.59–0.72)。在这两项测试中,当分别分析CT和MR成像的性能结果时,我们发现该模型在MR成像报告中的性能优于CT报告。
我们还使用来自医院1和医院2的结合注释报告训练了一个随机森林NLP分类器。在分层5倍交叉验证中,仅检验1家医院的数据,平均准确性为0.96 (95% CI, 0.96-0.96),平均F1评分为0.74 (95% CI, 0.72-0.76)。与仅使用医院1数据训练的NLP分类器相比,在医院1数据上的表现类似。在分层5倍交叉验证中,仅检验2家医院的数据,平均准确性为0.96 (95% CI, 0.96-0.97),平均F1评分为0.79 (95% CI, 0.77-0.80)。与仅使用医院1的数据训练的NLP分类器相比,在医院2的数据上的性能有了显著提高。由于在医院1报告上训练的NLP分类器与在医院1和2报告上训练的NLP分类器在医院1数据上的性能相似,因此我们使用前者进一步分析医院1完整数据集。
NLP的分类器训练在医院1日报道,在5交叉验证折叠结合CT和MR成像分析,平均有19.4真阳性(95% CI, 18.6 - -20.2), 6.2(95%可信区间,5.6 - -6.8)假阳性,7.6(95%可信区间,6.8 - -8.4)假阴性,和364.2 (95% CI, 18.6 - -20.2)真阴性分类。在错误分类的病例中,报告通常包含关于梗死的慢性性的不确定性(例如,年龄不确定或在研究印象中没有特别说明)。由于结果的分层,对于5个交叉验证折中,预测的平均阳性结果为25.6个(95% CI, 24.6-26.8),而实际阳性结果为27.0个。NLP预测,在验证倍数中,病例数量略微低估了ASIS阳性研究的实际数量(平均差异,−1.4;95%置信区间,0.2 - -2.4;以百分比表示,−5.1%;95%可信区间,0 - 8.8%)。
为确保1号医院报告中报告风格的差异不会因年份而有系统性差异(因为我们的流行病学分析会比较不同年份的报告),我们对1号医院数据集进行了为期一年的交叉验证,其中NLP分类器根据排除验证集年份以外的所有年份的数据进行培训(例如,根据2018年、2019年和2020年的报告进行培训,然后根据2020年的报告进行测试)。我们发现,在每一次验证中,模型性能没有显著差异(95%置信区间重叠),这表明模型在医院1的不同时间段表现相似(在线补充数据)。2020年F1的得分为0.72,而2017年至2019年的得分为0.68至0.73。
尽管NLP模型系统性地略微低估了ASIS病例数量,因为该模型每年的表现类似,我们使用该随机森林分类器来估计在完整的医院1研究队列中检测到的ASIS数量的变化,该队列包含32555例头颅CT和脑磁共振成像报告。
在COVID-19大流行期间,ASIS
使用这种随机森林NLP分类器,我们估计了进行的神经影像学研究的数量和检测到ASIS的患者数量(表1).在研究期间,至少有一次神经影像学研究(CT或MR成像)的患者被认为患有ASIS。与2017 - 2019年同期的平均值相比,2020年3月至4月CT或MR成像报告的ASIS患者估计减少了24%,此前2017 - 2019年同比增长(数字).与2019年相比,2020年3月和4月进行的神经影像学研究总数和接受神经影像学检查的患者数量同时下降(分别为- 39%和- 41%)。

2017 - 2020年3月和4月在1医院CT或MR成像检测到的急性或亚急性缺血性中风患者的估计人数。
在32,555份研究报告的完整队列中,32,358份报告(99.4%)包括在顺序输入时输入的研究指示字段中的结构化和/或非结构化文本。在这些病例中,我们筛选了“中风”、“神经缺陷”和“短暂性脑缺血发作”等症状,结果有5204份研究报告(表2.).在这些患者中,我们发现,与2019年3月至4月相比,2020年3月至4月报告的ASIS估计下降了21%(数字).在接受中风相关适应症影像学检查的患者子集中,发现ASIS的患者估计比例从2017-2019年的16%增加到2020年的21%(P = . 01) (表2.).与ASIS神经影像学研究的估计检测到的比例从20%期间2017年至2019年和24%在2020年增加(P = . 01)。
发现ASIS患者的平均年龄为66 [SD, 17]岁,各年龄间无显著性差异(P =。9)。与2017-2019年3月至4月期间相比,2020年3月至4月的性别比例也没有显著差异(P = 8)。总的来说,56%的ASIS患者是男性。年度数据见在线补充数据。
每位患者进行的神经影像学研究
如果在大流行前和大流行期间,每个患者进行的神经影像学研究数量不同,那么在患者中检测到ASIS的机会数量也可能不同。但是,这种差异似乎没有一个混杂因素分析,因为我们没有发现显著差异的神经影像学研究执行每个病人在2020年3月和4月期间和每一个2017年3月至4月,2018,或2019时期(P > 2)。
讨论
在这项研究中,我们开发了一种随机森林NLP算法,用于自动分类放射学报告印象中的ASIS,并将该算法应用于COVID-19大流行期间和之前的报告。我们发现,在美国大流行期间,在一家综合性中风中心进行的所有CT和MR成像研究中发现的ASIS患者数量大幅下降。这种减少可能与之前推测的因害怕感染COVID-19而不去医院有关。12,13此前的研究表明,在美国,主要使用商业软件进行脑卒中血栓切除评估的神经影像学研究减少了39%,在纽约,脑卒中代码ct特异性病例减少了59.7%。3.,4我们的研究之所以不同,是因为我们试图量化在此类研究中检测到的实际ASISs的减少和检测率。在有卒中相关图像顺序适应症的患者中,我们发现神经影像学研究阳性ASIS的比例显著增加。这一发现可能表明,在COVID-19大流行期间,成像患者平均有更严重或更明确的中风综合征(具有更高的卒中预测概率),这意味着症状轻微或模糊的患者就诊的频率低于前几年。
我们在本研究中使用的NLP机器学习方法也可以相对容易地应用于额外的数据,这将使我们能够在未来继续监测我们机构的神经影像学对ASIS的检测。NLP算法已被用于分析脑卒中发现的神经放射学报告,特别是任何缺血性卒中发现或缺血性卒中亚型的存在。8,9然而,我们模型中的任务相对具有挑战性,因为我们试图明确鉴别急性或亚急性中风,并有意排除慢性梗死。在与中风时间框架相关的放射学报告中,经常存在不确定性或不确定性,这使得NLP算法的这项任务具有挑战性。因此,考虑到MR成像在表征梗死年龄方面的优势,我们的NLP模型在MR成像报告中比CT报告表现更好也就不足为奇了。
仅在医院1的报告上训练的NLP分类器在外部位置的放射报告测试中表现出较低的性能,这可能是由于医院1和医院2的放射科之间在语言报告风格上的系统差异。虽然结合来自医院1和2的训练数据有助于创建一个更一般化的分类器,并提高了在医院2数据上的性能,但该分类器在医院1数据上的测试性能与仅在医院1数据上训练的分类器没有本质上的区别。这些发现强调了在临床部署前对NLP算法进行本地化测试的重要性。然而,只要理解了它的具体用例和限制,本地训练和部署的模型仍然是有用的。14
我们本可以使用来自医院管理和账单数据的国际疾病分类代码,而不是使用我们研究中提出的放射学报告NLP方法。然而,在文献中,国际疾病分类编码对急性卒中有不同的敏感性和特异性15并且可以是用于可靠地鉴别中风慢性尤其成问题。NLP的比较分析放射报告与疾病编码可能是未来研究的一个渠道的管理数据基础的国际分类。
对于这个研究具有重要的局限性。首先,我们用于分析的自动化NLP方法,系统地低估略微的ASISs的数量,但可以按比例来分析大量的报告。在未来,新的NLP技术,包括深学习型算法,可以帮助提高执行这样一个研究的能力。16其次,放射学报告并不是评估ASIS的参考标准,尤其是CT,在CT中可能看不到早期梗死。在我们的流行病学分析中,在我们感兴趣的时间段内,至少有1项神经影像学研究的患者被认为患有ASIS。因此,CT未报道的早期梗死患者,如果在随后的MR成像中报道,仍可视为ASIS,减少了假阴性CT的影响。然而,假阳性的头部ct会错误地提高ASIS的计数。第三,由于“精神状态改变”等非特异性指征没有被包括在内,识别与中风相关指征的研究可能低估了怀疑中风所进行的研究的总数。这种偏见应该在每年都是一致的;因此,它不应影响我们对有关时间段的阳性病例率的比较。
结论
我们开发了一种NLP机器学习模型,以描述COVID-19大流行之前和期间综合卒中中心的卒中成像趋势。减少中风检测的后遗症仍有待观察,但这种算法和共享代码可以帮助促进这些趋势的未来研究。
脚注
这项研究得到了国家生物医学成像与生物工程研究所、国家卫生研究院(授予编号5T32EB1680)和国家卫生研究院国家癌症研究所(授予编号F30CA239407)授予K.Chang的培训补助金的支持。
披露:肯Chang -相关的:格兰特:国立卫生研究院,评论:本出版物中报告的研究得到了国家生物医学成像和生物工程研究所、国家卫生研究院(第5T32EB1680号)和国家卫生研究院(第5T32EB1680号)国家癌症研究所(第5T32EB1680号)授予的培训拨款的支持。F30CA239407转K. Chang。*凯伦Buch -不相关的:就业:马萨诸塞州总医院。小威廉·a·梅翰不相关的:咨询公司:库那肿瘤,评论:头颈部癌症试验的独立图像审稿人;专家证词。Y:CRICO和其他医疗保险公司,评论:涉及神经影像研究的法医学案件的专家意见。Jayashree Kalpathy-Cramer -不相关的:津贴/补助等待: GE医疗保健,基因泰克患者基金会*;与所列活动无关的旅行/住宿/会议费用: IBM。支付给机构的钱。
表示对非用户开放访问m.yyz99.com
参考文献
- 收到2020年6月20日。
- 改版后接受2020年10月26日。
- ©2021由美国神经雷竞技可靠吗放射学杂志