CCF YOCSEF上海成功举办线上论坛“自然语言处理NLP技术前沿进展” - 论坛

语言智能是人工智能皇冠上的明珠，而自然语言处理是体现语言智能最重要的技术，更是人工智能的诗与远方。近几年随着深度学习的发展，自然语言处理的研究和应用取得了诸多突破，但同时也面临着模型处理效率、可理解与可解释、多模态融合等方面的挑战。CCF YOCSEF上海于2020年4月11日成功举办了主题为“科自然语言处理NLP技术前沿进展”的线上论坛活动，邀请了来自清华、哈工大、复旦和同济的NLP领域知名青年学者，与大家分享他们近期在NLP中的自注意力模型、知识指导的NLP、知识驱动的主动式开放域对话系统、多模态深度NLP、知识推理等方面的最新工作，并围绕预训练、常识推理、多模态、语言生成、语言偏见与伦理等热点问题展开深入探讨。

此次线上论坛由CCF YOCSEF上海主办，上海市数据科学重点实验室、PlantData海乂知信息科技协办。论坛执行主席为CCF YOCSEF上海AC委员卢暾， CCF YOCSEF上海候任学术秘书徐佳，微论坛执行主席为CCF YOCSEF上海通讯委员段圣宇。论坛包括嘉宾引导发言和互动思辨两个环节，超600名观众扫码报名，同时在线观看人数达800人。微论坛面向CCF YOCSEF上海微信群近500名成员进行文字直播，直播链接同步转发CCF YOCSEF全国AC群，并被YOCSEF多个兄弟论坛转发。线上会议观众通过“举手”发言和发表文字的方式积极互动思辨，气氛热烈，直到论坛结束后，观众仍在报名微信群中延展讨论。

论坛邀请了来自高校的5位嘉宾，分别是复旦大学计算机科学技术学院邱锡鹏、清华大学计算机系刘知远、哈尔滨工业大学计算机学院车万翔、复旦大学计算机科学技术学院熊贇、同济大学王昊奋。

邱锡鹏《自然语言处理中的自注意力模型》

主要介绍了团队在自注意力模型方面的一些工作，主要涵盖两部分内容：1）Transformer及其改进模型：通过分析Transformer的基本原理和优缺点，提出一些改进模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2）Transformer模型的应用：将Transformer模型应用在文本分类、实体名识别等自然语言任务上，并通过针对性的改进来进一步提高性能。最后，对Transformer模型及其未来发展趋势进行展望。

刘知远《知识指导的自然语言处理》

作为典型的数据驱动方法，深度学习面临可解释性不强等难题，未来的趋势是通过Data-Driven+Knowledge-Guided去解决。而如何去Knowledge-Guided NLP，需要Deep Learning+Knowledge Graph。分享了团队将义原知识应用在Word Embedding、 Language Modeling、SC Modeling、Adversarial Attack In NLP等的相关研究成果。最后，他提出利用义原作为指导的文本对抗攻击是未来的发展趋势，即基于义原取替换词。

车万翔《知识驱动的主动式开放域对话系统》

目前开放域对话领域存在无意义的安全回答及多轮的连贯性问题。为解决以上问题，我们需要引入知识，运用知识图谱。目前知识增强的回复生成技术存在缺乏可解释性、难以管理有效对话等问题，因此提出了知识驱动的主动内容规划。同时，为解决以上技术过于依赖知识图谱，因此粒度较粗，从而引入了对话图的思想。考虑到对话图需要垂类领域大量的资源，提出了基于搜索图的对话策略学习框架。

熊贇《多模态深度学习方法研究与应用》

报告首先概述了从单一模态到多模态课题研究的发展历程，接着介绍了团队在多模态表示学习方面研究成果：复杂行为数据表示。熊贇通过实际生活中，微信对话文字结合图片表情以推测问答的例子，引出了多模态对于实际任务研究的重要性。接着，熊贇介绍了团队在多模态实际应用中的研究成果：个性化评论生成、代码注释生成以及医疗影像报告生成。同时，熊贇指出了多模态学习方法面临的难点，例如：图像文本生成目前存在的问题，即缺乏客观的评判标准。最后，熊贇总结到：数据的发展促进了数据应用价值的发现，而多模态学习方法即为数据应用价值的发现提供了新手段，多模态学习方法在众多实际应用中的效力。

王昊奋《知识推理的过去、现在和未来：浅析神经与符号的对立与融合》

介绍了知识推理的主要范式和面临的挑战、分享各种技术进展，并分享了PlantData对于知识推理在工业上的落地应用，包括：企业投资风险研究、信贷风控、智能投顾、挖掘政府人员的人际关系、农作物价格预测和电力设备故障诊断。

在思辩环节，执行主席卢暾和徐佳围绕“自然语言处理当前是牙牙学语还是妙语连珠？”提出三个思辨子主题，嘉宾、在线观众以及微论坛观众一起展开思辨分享。在线观众积极“举手”发表观点或对嘉宾提问，气氛十分热烈。

1）预训练真的是领域迁移和小样本学习的灵丹妙药吗？

邱锡鹏：采用丰富的预训练系统可以是非常有效的技术，因为在实际情况下样本量有限，同时预训练与知识的引入并不互斥，所以目前来说预训练是解决NLP问题的很好的手段。但对于强人工智能来说或许会有不同的回答。

刘知远：预训练可以解决一定的问题，是一个阶段性的胜利，但并不能说是灵丹妙药。从实验结果看，预训练并不能解决大跨度领域的迁移，特别是在噪音较大、领域差异明显的情况下。因此，对于推理的知识，预训练可能需要与知识指导相结合。

熊贇：在某些场景下，预训练存在一些问题，例如医学影像方面，其特点是数据集较小，在验证结果时，由于数据样本的缺失，难以得到体现。在数据集的公开、收集上还需要更多的人参与进来，从数据集方面提高预训练的能力。

王昊奋：工业界认为很多模型是在Model层面开发，而不是从Data或是知识的层面，在可调整能力或是可解释性上存在问题。虽然预训练一直在被使用，但是在数据分布发生变化或任务发生变化时，预训练产生的结果是否能从一个任务迁移至另外一个任务，仍然有待商榷。

2）单一模态的自然语言处理是否达到天花板了？多模态和知识引导是否是突破点呢？

对于这个问题，几位专家均表示单一模态的NLP还远没有达到天花板。

刘知远：多模态学习是很有意义的研究，但模态与自然语言处理并没有过多的联系，无论是哪个模态，都可以进行很好的知识推理。

车万翔：目前单模态的自然语言处理仅仅应用于文本信息，但对于情绪信息的分析远远不够，如果有语音、视觉、重音等信息的加入，才能更好的让技术得到发展。

熊贇：取决于具体的场景，目前单一模态在某些领域仍然需要发展，但对于其他领域，问题在于缺少了某些关键信息。

观众提问：能谈谈将自然语言转化成符号逻辑时，经常缺少符号逻辑的训练数据，解决这些问题有哪些弱监督的方法呢？

王昊奋：可以从知识问答的角度出发，从问题联系到具体的数据库、知识库，以问答对来模拟问题和逻辑表达式的关系，虽然存在缺失，但目前可以说是较为成熟的技术手段。

观众提问：注意力函数的设计有哪些需要注意的？

邱锡鹏：注意力目前更多的是采用多项分布，就现在来说可以将多项分布改为更为广义的结构化注意力。

3）如何消除由于标注数据中的偏差给语言训练模型带来的偏见或歧视？

邱锡鹏：目前这方面已经有很多的工作了，更多的是分析模型里存在的偏差，解决仍然存在难度，可以从脚本设计出发，对特定词汇、信息进行过滤，在预处理是在一定程度的消除偏见，但可以达到的效果仍有待商榷。

车万翔：这是统计模型固有的问题，统计模型来自数据，数据存在偏见，因此必然存在。同时，这些偏见或偏差也会一定程度上影响模型的鲁棒性。对于对抗的样本，可能可以做到减轻，但消除难度比较大。

熊贇：重点在于保证数据质量，需要首先判断数据的真实性，但是数据质量的处理更多的是来自于人工的，所以处理效率不高。

最后5位嘉宾用一句话总结了各自在NLP的理解。

邱锡鹏：NLP在强人工智能领域可能存在不足，但在弱人工智能领域仍能有很多的发挥，重点在于找到具体的场景。

刘知远：预训练加深度学习是目前的一个趋势，但从长远看来，NLP仍需要知识的引入。

车万翔：任重而道远。

熊贇：虽挑战众多，但可期可待。

王昊奋：知识和推理是走向强人工智能最艰难的部分，但我们仍需坚持。

作为CCF YOCSEF 线上论坛系列之一，CCF YOCSEF上海在线颁发了环保的电子感谢牌，表达对嘉宾由衷的感谢，并对每张感谢牌赋予了唯一的标号。

扫码关注“YOCSEF上海”微信公众号，论坛嘉宾ppt和视频回顾将于近期公开，敬请期待。

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum