斯坦福大学一个联合研究团队开发出了一个皮肤癌诊断准确率媲美人类医生的人工智能,相关成果刊发为了1月底《自然》杂志的封面论文,题为《达到皮肤科医生水平的皮肤癌筛查深度神经网络》(Dermatologist-level classification of skin cancer with deep neural networks)。他们通过深度学习的方法,用近13万张痣、皮疹和其他皮肤病变的图像训练机器识别其中的皮肤癌症状,在与21位皮肤科医生的诊断结果进行对比后,他们发现这个深度神经网络的诊断准确率与人类医生不相上下,在91%以上。
深度学习为医学添砖加瓦
在中国,皮肤癌并不是癌症家族中特别瞩目的成员,这是因为黄种人的皮肤癌发病率要低于白种人。但在美国,皮肤癌却是最常见的癌症之一。每年约有540万美国人罹患皮肤癌。以黑色素瘤为例,如果在五年之内的早期阶段检测并接受治疗,生存率在97%左右;但在晚期阶段,存活率会剧降到14%。因而,早期筛查对皮肤癌患者来说生死攸关。
一般情况下,来到医院或诊所后,医生会基于视觉诊断进行临床筛查,再对疑似病变部位依次进行皮肤镜检查、活体组织切片检查和病理学诊断。
医生使用皮肤镜进行检查
但由于各种各样的原因,很多人并不会及时为皮肤上出现的一些细小症状而跑一趟医院。因而,基于人工智能的家用便携式皮肤癌诊断设备将大大提高早期皮肤癌的筛查覆盖率,挽救更多人的生命。但是,癌症诊断,差之毫厘,谬以千里,人工智能能够胜任将黑色素瘤从普通的痣中筛选出来的任务?斯坦福大学这个联合研究团队的结论是:基于深度学习的机器医生诊断准确率十分惊人。
“我们意识到这是可行的,机器不仅能做,而且能做得和人类一样好”,斯坦福人工智能实验室助理教授Sebastian Thrun说道,“这时候我们的想法完全变了。我们说,‘瞧吧,这不仅仅是个学生作业,这可能有益于全人类’。”
这种视觉处理算法基于时下大热的深度学习,即通过大量的数据作为示例来训练机器完成某些特定任务。近来深度学习不仅在视觉处理方面大放异彩,也在其他不同的领域硕果累累,譬如谷歌的围棋AI阿尔法狗,就是在学习完3000万张人类棋谱后击败世界围棋冠军李世石的。在机器学习过程中,开发者不再需要对解题方法进行编码,而是任由计算机通过学习示例数据自己“摸索”出解法。具体到皮肤癌诊断这个案例中,就是研究者不再需要自己总结中皮肤癌在外观上的一些规律性特征来教会计算机,而是由它自己总结其中的模式。
以谷歌一个区别猫狗的算法为蓝本
研发者们没有自己另起炉灶,而是以谷歌的一个能在128万张图像中识别1000种物体的算法为蓝本进行加工。谷歌的这个算法原本是用来区分喵星人和汪星人的,现在,研究者们需要训练它区别良性脂溢性角化病(benign seborrheic keratosis)和角化细胞癌(keratinocyte carcinomas)、普通的痣和恶性黑色素瘤(malignant melanomas)。
但是,在数据方面,研究团队面临的第一个问题就是并不存在一个现成可用的庞大皮肤癌数据库。所以,斯坦福人工智能实验室从互联网上收集数据,与斯坦福医学院进行合作,给这一大堆混乱的照片分类贴标签。这工作并不容易,毕竟,原始数据里的语言就有好几种,光把这些翻译统一就很耗时。
接着,联合研究团队再一起对这锅大杂烩进行筛选。专业的皮肤科医生会使用皮肤镜,一种手持的显微镜,对相关部位的皮肤进行放大观察,形成的医学影像具有一些固定标准。但这里的大多数照片不是专业的医学影像,角度、尺寸和亮度五花八门。最后,他们选出了129450张皮肤病变图片,其中包含2032种不同的疾病。每张照片是作为一个带有相关疾病标签的像素输入进算法的。这样,研发者省去了许多前期的图像分组工作,大大提高了数据量。
图片样本:良性和恶性的上皮细胞/黑色素细胞/皮肤镜下的黑色素细胞
经过训练后,研究者们使用由爱丁堡大学和国际皮肤影像合作项目(International Skin Imaging Collaboration Project)提供的高质量的、经活检证实的照片来检测机器的学习成果,照片涉及两种最常见、也最致命的皮肤癌:恶性黑色素瘤和角质形成细胞癌。21位人类皮肤科医生被要求观察其中的370多张图片,并对每一张作出判断:是要进一步进行活检或治疗,还是告诉病人一个好消息。
在测试中,人工智能被要求完成三项诊断任务:鉴别角化细胞癌、鉴别黑色素瘤,以及使用皮肤镜图像对黑色素瘤进行分类。研究者通过建构敏感性(sensitivity)-特异性(specificity)曲线对算法的表现进行衡量。敏感性体现了算法正确识别恶性病变的能力,特异性体现了算法正确识别良性病变,即不误诊为癌症的能力。在所有三项任务中,该人工智能表现与人类皮肤科医生不相上下,敏感性达到91%。
算法诊断不同数量的角化细胞和黑色素细胞图片时的敏感性,均在91%以上。
除了媲美人类医生的诊断敏感性之外,该算法还有一大亮点,它的敏感性是可以调节的。研究者可以依据想要的诊断效果对敏感性进行调整。
未来的掌上医生
这个算法现在还需要依托一个计算机运行,但斯坦福的这个团队会努力把它缩小到可以在手机上装载的地步。他们觉得这种改装还是挺容易的,只是还需要更多实打实的临床检验。在不远的未来,也许人们手指轻轻一点,就可以进行靠谱的皮肤癌诊断。
Thrun实验室的研究生Esteva说道,“当我想到智能手机强大的存在感后,我真是灵光一闪。未来每个人口袋里都会装着一个超级计算机。如果我们用它来筛查皮肤癌,或者其他疾病呢?“
诚然,深度学习这块土壤培植了太多可能性。斯坦福大学针对皮肤癌筛查的这个算法只是打开了通往新世界的一个小口子,在未来,基于深度学习的人工智能将在更广阔的医疗领域内与人类大夫们并肩作战。