学术前沿

学术界 AI 科研事记，全方位追踪 AI 学术研究期刊与学术会议

热门论文

作者: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

期刊: NeurIPS 2017

引用: 50000+

首次提出 Transformer 架构，使用自注意力（self-attention）替代循环/卷积结构，显著提高并行效率并成为后续大规模语言模型与视觉 Transformer 的基础。

作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

期刊: NAACL 2019 / arXiv

引用: 70000+

提出双向 Transformer 预训练方法（BERT），通过大规模无监督语料预训练后在多项下游任务上少量微调即可达成或超过当时最佳性能，推动了 NLP 预训练范式。

作者: Tom B. Brown, Benjamin Mann, Nick Ryder, et al.

期刊: NeurIPS 2020 / arXiv

引用: 40000+

介绍 GPT-3，展示了超大规模自回归语言模型在无需或少量微调的 few-shot、one-shot 场景下的强大泛化能力，带来了通用语言模型的广泛应用与讨论。