2019年是NLP爆发式发展的一年,有点像之前的计算机视觉领域,不仅仅体现在学术界,工业界也是如此。
作者:Mo Islam, Partner, Threshold Ventures
编译:ronghuaiyang
首发:AI公园公众号
我刚从温哥华神经信息处理系统年会回来。自从我 2015 年最后一次参加以来,很多事情都改变了。NeurIPS(原名 NIPS)已经从 3700 人发展到超过 13000 人,成为世界上最大的机器学习研究会议。我还注意到,寻找顶级机器学习人才的公司和初创公司的数量呈爆炸式增长。
我听了几个非常好的演讲:1)Celeste Kidd 关于人类信仰的形成以及机器学习算法如何影响我们所知道的东西的演讲。2)Yoshua Bengio 对话 Daniel Kahneman,讨论机器意识,代理以及代理生成,包括系统到深度学习。NeurIPS 的大多数演讲都是技术性很强的,但这两个演讲对于普通观众来说是可以理解的。它们让我们对未来 10 年的机器学习将是什么样子,以及它将如何影响我们的生活有了重要的了解。
我今年参加了 NeurIPS,主要想了解以下机器学习的最新进展。毫无疑问,当前最令人兴奋的行业浪潮是自然语言处理(NLP)的进步。我已经跟踪这个行业很多年了,但是在过去的一年里,我们看到了技术上的巨大进步,我相信我们正在进入 NLP 的黄金时代。与过去几年在计算机视觉方面的主要进步类似,NLP 在性能方面已经达到了一个阈值,可以解锁许多新产品和服务。
算法
算法开发主要由大型科技公司提供资金,并通过开源软件进行发布,这正在迅速推动 NLP 技术的发展。一个经常被谈论的技术是BERT (使用 transformer 的双向编码器表示),这是由谷歌开发的最先进的 NLP 预训练技术。BERT 在整个行业中非常的重要。NLP 是一个多样化的领域,它需要许多特定于任务的数据集 — 缺乏特定任务的训练数据是一个巨大的冷启动挑战。BERT 接受过 Wikipedia 语料库的训练,他为开发人员和数据科学家启动了 NLP 模型的构建,允许他们使用小型数据集来 finetune 特定的 NLP 任务。它依赖于 transformer,一个新的神经网络结构,可以直接模拟一个句子中所有单词之间的关系,以及双向性,这是一个古老的想法,第一次被用来预训练一个深度神经网络。
科技巨头之间对 NLP 优势的竞争和开源软件带来的自然合作为过去一年取得更大进展铺平了道路。Facebook 人工智能选择了 BERT,并对其中的一般进行了更好的优化,得到了[RoBERTa]。百度的灵感来也自 BERT,并产生了目前表现最好的模型,如下所示,它位于 GLUE(通用语言理解评估)的排行榜第一名上,GLUE 是评估 NLP 模型的基准。以 Sesame Street 中 Bert 的朋友名字命名的“ERNIE”,在中文的语料上的表现超越了其他的。虽然不像 Sesame Street 那么友好,但微软也推出了一个受 BERT 启发的模式MT-DNN。OpenAI 最近发布了另一款基于变压器的模型 GPT-2,在 800 万个网页上训练了 1.5B 参数。感谢 ML 工程师 Adam King,你可以用它来完成你的句子。由大型科技公司资助的算法的持续改进,通过开源软件发布模型是推进 NLP 的关键。
应用
最先进的预训练模型的可用性对于新产品和服务中的大规模 NLP 采用来说是超级令人兴奋的。在企业生产力、客户服务和医疗记录等领域跨产品构建功能的开发人员可以利用这些预训练的模型来快速构建问答系统、情感分析和临床决策支持工具。这些只是几个例子。语言无处不在(代码也是语言!),我相信 NLP 有潜力支配几乎每一个行业。
这项技术也正在迅速投入生产。谷歌已经在美国使用 BERT 提高了 10%的搜索量,随着新模型的建立,它将扩展到更多的语言和地区。
虽然许多 NLP 技术将成为产品的特色或用来改善服务,如谷歌搜索,我们也将看到对话型人工智能的复苏。聊天机器人融资热潮仍在持续中,但我坚信,当时基础的 NLP 技术还不够成熟,不足以充分支持这些应用。许多处于早期阶段的公司要么失败了,要么早早退出了。我对未来五年复杂的人工智能对话系统和基于代理的模型的复兴感到兴奋,因为这是 NLP 的门槛。
除了应用之外,我还希望看到更多的工具和基础设施(构建在开放源代码之上),以使开发人员和数据科学家能够将他们的模型投入生产。与 Transformer GPT-2 web 应用演示的对话是可能的,因为工具为该模型提供了一个简单的 PyTorch 实现。我认为,初创公司将有更多的机会提供模型管理、模型治理和模型 CI/CD,以简化生产用例中对 NLP 的采用。NLP 已经准备好进入黄金时段。我认为这是一个好兆头,它预示着新兴公司的自下而上、开发人员驱动和高速的商业模式。我预计许多公司会为这个基础设施做出贡献,但我不认为它们将主要由亚马逊或谷歌制造。
在风险投资中,我们投资的是处于变革式增长门槛的颠覆性公司。我相信 NLP 正处于这样的一个临界点。NeurIPS 为我们提供了一个绝佳的视角,让我们了解该行业在过去一年里取得了怎样的进展,以及受益于这项技术的新产品还有多大的潜力。我期待着进入 NLP 的黄金时代。
英文原文:https://medium.com/@thresholdvc/neurips-2019-entering-the-golden-age-of-nlp-c8f8e4116f9d
关注图像处理,自然语言处理,机器学习等人工智能领域。
欢迎关注微信公众号