让小数据样本在AI中发挥大作用 - 数字基座-观点与实践

如今，超过75%的大型企业都会涉及到 “数据至上 “的人工智能计划——通过神经网络或深度学习系统的项目，这些项目基于庞大的数据库开展训练。然而，组织中许多最有价值的数据集其实规模相当小：可能只有千兆字节的量级。由于这些数据缺乏大数据的容量和规模，因此常被忽视，沉寂在PC和业务数据库中，没有接入到企业创新数据分析体系当中。

而我们最近对医疗编码员（为病例进行编码标记的医护人员）进行的一项实验表明，新兴的人工智能工具和技术，加上对人为因素的额外关注，可以为利用小数据训练人工智能和改业务造流程提供新的可能性。

原文：Small Data Can Play a Big Role in AI，作者：H. James Wilson、aul R. Daugherty 由数字基座提供翻译

在大型企业中，相对于每一个为人工智能分析计划提供燃料的大数据集（具有亿行规模），就会一千行小数据集未被使用。这样的例子比比皆是：新客户群的营销调查、会议记录、少于1000列和行的电子表格……在我们的实验中，这些小数据集，是由医疗编码员团队添加到医疗图表中的注释–在几千张图表中，每张图表上只有几十个注释。

医疗编码员分析单个病人的病历，并将诊断、治疗、药物等复杂信息转化为字母数字代码。这些代码被提交给计费系统和医疗保险公司进行支付和报销，在病人护理中发挥着关键作用。

我们实验中的编码员，都是注册护士，他们借助人工智能系统的帮助。扫描病历，智能识别病例和治疗方案之间的联系，并为此标记上代码。

我们想看看是否有可能将，负责对病历进行准确、逐一评估的编码人员，转变人工智能的训练员，以提高系统医学识别能力。

在为期12周的实验过程中，我们发现：通过小数据和人工智能的结合来创建和改造工作流程，需要密切关注人的因素。我们相信，实验中出现的三个以人为本的原则可以帮助企业开始实施自己的小数据计划。

平衡机器学习与人类专业知识

已经存在一些AI工具，用于用小数据训练AI。例如，”少样本学习”教AI只基于几个样例而不是几十万张图像来分辨对象类别（脸、猫、摩托车）。在“零样本学习”中，AI能够准确预测出图像标签，哪怕这个物体没有被包括在之前学习的样本中。换句话说，它可以正确识别它从未见过的东西。“迁移学习”可以将从一项任务中获得的知识转移到新任务的学习中。例如，基于一些类型模式，来识别癌症下的子类。这就消除了机器执行新任务所需的大量新数据。

在我们的实验中，我们采用了一种通常被称为知识图谱的工具，它明确表示了不同类型实体之间的各种关系。例如：”药物A可以治疗病情B”，”治疗X可以缓解症状Y”，”症状Y与病情B有关 “等等。它简明扼要地记录了专家知识，并使这些知识易于被机器推理–例如，关于在开出的药物和治疗方法下出现特定病症的可能性。

为了让编码员能够将他们的知识传授给人工智能，我们开发了一个易于使用的界面，让他们能够查看图谱数据库中的争议标记。这些标记是其它同事在审查图表时，与人工智能意见相左的标记。比如向系统中添加了之前不存在的新标记，或者删除了系统自动添加的标记。根据他们的专业知识，编码人员可以直接确认、删除或添加标记，并为他们的决定提供理由，这些决定以后会被编码同事看到。此外，我们还鼓励他们遵循自己的倾向，使用谷歌搜索来研究药物-疾病的关系，而不只是依赖现有的AI建议。

这种机器学习和人类专业知识的结合，具有显著的倍增效应。编码员不仅评估了单一的图表，他们的标记，会影响未来所有图表。此外，由于人工智能可以承担常规流程式的工作，使编码员可以解放出来，他们无需再识别所有图表，而只专注于特别有问题的病例。同时，数据科学家也从繁琐的、低价值的数据清洗、归一化、整理工作中解放出来。

注重人的输入质量，而不是机器输出的数量

在常规系统中，编码员专注于对单个病例图表进行高质量的准确评估。随着时间的推移，AI从众多编码员添加或拒绝的标记进行统计：一旦人工智能不熟悉的药物与疾病之间的联系被编码员提出了相当多的次数，一名数据科学家就会将其添加到知识图谱的数据库中。很少进行手工干预，所以系统学习到建议会滞后，因为它依赖于对标记统计数量的理解，而不是医学专业知识。

在新系统中，我们鼓励编码员不只是看当前单个病例的标签，而更多地指导人工智能如何处理特定的药物-疾病的关联。他们可以直接将标记添加到知识图谱AI中，减少证据积累的负担。AI将更加定期和动态地学习，特别是关于罕见的、有争议的或新的药物-疾病链接。

关注处理小数据的团队的社交动力

在新的角色中，编码员很快就发现自己不仅是人工智能的老师，而且是其他编码员的老师。最重要的是，他们看到，他们为决策时标记的理由，会影响他们在团队中的影响力。他们提出的理由对后续编码员遇到陌生环节时的决策信心影响很大。

仅仅在几次实验之后，一些参与者就要求增加该工具的中“理由”文本框中的可输入字符数。后来，他们又要求以关联上一个以上的参考文献。值得注意的是，他们不仅开始在每个案例上投入比现有系统更多的时间，而且随着实验的展开，他们为自己的决定提供了更全面的理由。此外，编码员表示，他们在执行新任务时感到更满意、更有成效，使用了更多的专业知识，并获得了新的技能来帮助建立自己的专业知识。他们也对每天与人工智能合作感到更加积极。

随着小数据技术的发展，其效率、准确性和透明度的提高将越来越多地投入到各个行业和业务职能中。例如：药物发现、工业图像检索、新型消费品的设计以及工厂设备部件的缺陷检测等等。

未来竞争优势将不是来自自动化，而是来自人的因素。例如，随着人工智能在员工技能培训中发挥越来越大的作用，它从更小的数据集中学习的能力将使专家级员工能够将他们的专业知识嵌入培训系统，不断改进系统，并将他们的技能有效地转移给其他工人。那些不是数据科学家的人可以转变为人工智能培训师，就像我们的医疗编码员一样，使企业能够应用和扩展其组织特有的大量未开发的专业知识储备。此外，小数据应用所产生的结果将不会像在数据密集型应用中那样来自于黑匣子，而是来自于人机协作，使这些结果变得可以解释，从而在组织内外更值得信赖。

掌握小数据与人工智能结合的人性维度，可以帮助许多组织实现竞争差异，尤其是那些发现自己在大数据竞赛中不太可能获胜的组织。

平衡机器学习与人类专业知识

注重人的输入质量，而不是机器输出的数量

关注处理小数据的团队的社交动力

相关文章: