2021年6月5日-6日,由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办,杭州市余杭区人民政府筹备组承办,浙江杭州未来科技城管理委员会执行的2021全球人工智能技术大会(GAITC 2021)在杭州举办。此次大会集会、展、赛为一体,进一步促进人工智能领域的技术创新、应用创新、成果转化、产业链协同。

  大会邀请31位中外院士齐聚线上线下,与260多位海内外人工智能专家学者、技术领军者,围绕人工智能的理论、技术、应用、伦理、安全等议题展开思想探讨与观点碰撞;通过22场专题论坛全面梳理智能科技的产业脉络与未来趋势。

  其中,一场关于深度探讨AI领域的难点技术“自然语言处理理解专题论坛”于6日上午举行,线下线上累积观看超过40000人次。论坛由世界顶级的AI科学家,自然语言处理领域代表人物、创新工场首席科学家、ACL前主席、CCF Fellow周明博士和京东集团副总裁、AI研究院常务副院长、IEEE/CCF Fellow何晓冬博士联袂主持。来自亚马逊、百度、微软、北京大学、苏州大学、字节跳动的大咖嘉宾展开了不同角度的技术专题报告及圆桌对话

  自然语言处理是人工智能领域重要的分支,也是支撑机器翻译发展的关键硬技术。周明博士在开场便表明:“自然语言理解是人工智能皇冠上的明珠。NLP是人工智能赋能社会和赋能行业的硬核科技。它的重要性比肩芯片、操作系统。”自然语言处理属人工智能四大层级中的第三层“认知智能”,是“感知智能”基础上重要且难点的技术。

  它的进步将推动推理、决策、问题求解等技术,推动人工智能的理论和技术发展,赋能数字化转型,提高企业和社会效率。近年随着自然语言处理技术在Transformer和预训练,机器翻译、问答、搜索等的大幅度提升。机器翻译甚至在通用领域和新闻领域接近或者达到人类水平。

 

今天,人与机之间的自然语言交互已经被广泛应用在多种智能终端上,服务智能家电、交通、城市基础设施等交互场景中,使之具备基本语言交流能力。亚马逊Alexa AI 高级首席科学家、IEEE/ISCA Fellow,Dilek Hakkani-Tur教授结合自身研究方向,从整合任务导向与社交闲聊对话系统的方向介绍了自然语言处理进展与成果。

  百度技术委员会主席吴华,就开放域对话最新进展及遇到的问题、通过知识驱动的对话系统的解决方案、以及对对话数据集、对话挑战与未来发展方向的四个方面展开报告,在报告中吴老师谈到即便预训练规模已接近100亿,在开放域对话里还是看到一些问题,在开放域对话时不能主动规划对话内容、有些对话主题空泛甚至不连贯、以及预训练知识在开放域对话中匹配不准确性。都说明“语言”在不同场景下的多变性,使得自然语言处理技术研究相较其他人工智能技术更复杂。

  微软亚洲研究院首席研究员韦福如先生,针对预训练模型领域从概念,技术,成果及未来发展方向展开报告。其中谈到:一个足够好的预训练模型可以支撑下游所有的任务,但在训练这个模型时需要海里的数据资源和相对长的时间。

  北京大学王选计算机研究所的万小军教授,通过自然语言理解和自然语言生成两个方面展开,阐明为什么人机围棋之战,机可胜人,而自然语言处理领域,机不可胜。其难点就在于自然语言处理的搜索空间巨大以及客观评价困难。在文本生成中机器的理解不等于人类的理解,神经网络文本生成的挑战,在于生成结果质量不可控,如果内容覆盖行不够,篇章连贯性不佳、语议一致性不好等等;其次在于生成文本的多样性如何提升的问题。通过一个案例可以看出AI写作与人类写手对同样画面内容进行描述,其语言的生动性,传神性存在相当的差距,在未来AI依然无法超越人类对语言结果场景、文化背景下的自如运用,但AI可以释放自身能力协助人类快速输出。

  苏州大学计算机学院/软件学院院长、教授、国家杰出青年获得者张民教授结合语篇和机器翻译领域展开对自然语言处理的本质问题探究。他说道一个最经典的理论:所有的语言现象蕴含在数据当中,知识必须从数据到信息凝练出来。人类要解决自然语言处理的终极问题就在于解决篇章的问题。篇章具备衔接性、连贯性、意图性、情景性等,是句子间语言逻辑关系的理解。因此在机器翻译中只翻译正确单个的字词、句子依然是远远不够的。

  字节跳动人工智能实验室总监李磊博士就语音翻译的研究及产品创新性展开。声音和文本本身存在语义空间上、长度上,表述上等很大差别,尤其在同传翻译中,翻译很难做到完全和说话时时同频,通过端到端的模型测试有显著提升。

  与会嘉宾代表还就Chatbot和对话系统最近新的发展主要体现在哪几个方面?未来研究方向是什么呢?预训练模型是否是自然语言理解未来发展方向?自然语言处理未来五年,值得关注的研究方向?等话题进行深入交流了。

  通过论坛各位与会嘉宾代表的报告与对话交流中,不难感受到在自然语言理解的探索之路上仍然因为语言的天然多重属性存在极大的技术挑战,但自然语言处理技术的前进无疑将大大推进整个人工智能领域的更高层度的发展。我们期待着自然语言处理技术可以象CV一样快速进步,也会涌现自然语言处理的独角兽。

  语言是人类最伟大的发明之一,是人类沟通交流的不可或缺载体。人类文明产生的文字记载可以脱离生命体而独立存在,才让各民族文明得以传承与传播。李德毅院士说到:人类诞生后有了语言才有了文字,有了文字才有了历史,有了历史才有了文化,有了文化才有了文明,文明是智能的生态。

  展望20年后,无论人工智能发展到什么阶段,多少工作被人工智能所替代,语言文字的工作仍旧无可被替代。因此多语种智能信息处理专委会的成立至关重要。传神语联作为中国最大的、以技术驱的人工智能语言服务平台,在6月5日召开的闭门选举会议中,入选为中国人工智能学会发起的 “多语种智能信息处理专业委员会”常委单位。致力推动行业数字化转型,通过语联网开放平台,整合语言服务行业数据、信息、人才资源,将整合的资源与先进的AI技术融合为行业赋能释放更大能量。