general造句

日期：2022-06-04 12:09:06 栏目：诗词文章浏览：390次来源：原由网腾讯技术工程侧边栏

恰逢春节假期，研究了一下BERT。作为2018年自然语言处理领域的新秀，BERT做到了过去几年NLP重大进展的集大成，一出场就技惊四座碾压竞争对手，刷新了11项NLP测试的最高纪录，甚至超越了人类的表现，相信会是未来NLP研究和工业应用最主流的语言模型之一。本文尝试由浅入深，为各位看客带来优雅的BERT解读。

NLP背景：BERT的应用舞台

NLP：Natural Language Process，自然语言处理，是计算机科学、信息工程以及人工智能的子领域，专注于人机交互，特别是大规模自然语言数据的处理和分析。

除了OCR、语音识别，自然语言处理有四大类常见的任务。第一类任务：序列标注，譬如命名实体识别、语义标注、词性标注、分词等；第二类任务：分类任务，譬如文本分类、情感分析等；第三类任务：句对关系判断，譬如自然语言推理、问答QA、文本语义相似性等；第四类任务：生成式任务，譬如机器翻译、文本摘要、写诗造句等。

GLUE benchmark：General Language Understanding Evaluation benchmark，通用语言理解评估基准，用于测试模型在广泛自然语言理解任务中的鲁棒性。

BERT刷新了GLUE benchmark的11项测试任务最高记录，这11项测试任务可以简单分为3类。序列标注类：命名实体识别CoNNL 2003 NER；单句分类类：单句情感分类SST-2、单句语法正确性分析CoLA；句对关系判断类：句对entailment关系识别MNLI和RTE、自然语言推理WNLI、问答对是否包含正确答案QNLI、句对文本语义相似STS-B、句对语义相等分析QQP和MRPC、问答任务SQuAD v1.1。虽然论文中没有提及生成式任务，BE原由网RT核心的特征提取器源于谷歌针对机器翻译问题所提出的新网络框架Tran原由网sformer，本身就适用于生成式任务。

语言模型的更迭：BERT之集大成

LM：Language Model，语言模型，一串词序列的概率分布，通过概率模型来表示文本语义。

语言模型有什么作用？通过语言模型，可以量化地衡量一段文本存在的可能性。对于一段长度为n的文本，文本里每个单词都有上文预测该单词的过程，所有单词的概率乘积便可以用来评估文本。在实践中，如果文本很长，P(wi|context(wi))的估算会很困难，因此有了简化版：N元模型。在N元模型中，通过对当前词的前N个词进行计算来估算该词的条件概率。对于N元模型，常用的有unigram、bigram和trigram，N越大，越容易出现数据稀疏问题，估算结果越不准。此外，N元模型没法解决一词多义和一义多词问题。

参考资料：

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Krisina Toutanova.2018.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.

Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word rep- resentations. In NAACL.

Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language under- standing by Generative Pre-Training. Technical re- port, OpenAI.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Go原由网mez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Pro- cessing Systems, pages 6000–6010.

J. Deng,//www.58yuanyou.com W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. 2009. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09.

Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013.Efficient Estimation of Word Representations in //www.58yuanyou.comVector Space.