Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Computer Science. 24. Mai 2019, arxiv:1810.04805v2 (englisch).
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. In: Computer Science. 28. Mai 2020, arxiv:2005.14165v4 (englisch).
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe: Training language models to follow instructions with human feedback. In: Computer Science. 4. März 2022, arxiv:2203.02155 (englisch).
Renqian Luo (et-al): BioGPT: Generative pre-trained transformer for biomedical text generation and mining. In: Briefings in Bioinformatics. 23. Jahrgang, Nr.6, 3. April 2023, doi:10.1093/bib/bbac409, PMID 36156661, arxiv:2210.10341 (englisch).
Li Deng: A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core. In: Apsipa Transactions on Signal and Information Processing. 3. Jahrgang. Cambridge.org, 22. Januar 2014, S.e2, doi:10.1017/atsip.2013.9 (englisch, cambridge.org [abgerufen am 21. Mai 2023]).
Geoffrey Hinton (et-al): Deep neural networks for acoustic modeling in speech recognition. In: IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. Jahrgang, 15. Oktober 2012, doi:10.1109/MSP.2012.2205597 (englisch, stanford.edu [PDF]).
Li Deng: A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core. In: Apsipa Transactions on Signal and Information Processing. 3. Jahrgang. Cambridge.org, 22. Januar 2014, S.e2, doi:10.1017/atsip.2013.9 (englisch, cambridge.org [abgerufen am 21. Mai 2023]).
Renqian Luo (et-al): BioGPT: Generative pre-trained transformer for biomedical text generation and mining. In: Briefings in Bioinformatics. 23. Jahrgang, Nr.6, 3. April 2023, doi:10.1093/bib/bbac409, PMID 36156661, arxiv:2210.10341 (englisch).
eleuther.ai
Language Modeling. 12. Februar 2024, abgerufen am 28. Mai 2024 (britisches Englisch).
Dave Ver Meer: ChatGPT Statistics. In: NamePepper. 1. Juni 2023, abgerufen am 9. Juni 2023 (englisch).
neurips.cc
proceedings.neurips.cc
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, Illia Polosukhin: Attention is All you Need. (PDF) In: Advances in Neural Information Processing Systems. Curran Associates, Inc., 2017, abgerufen am 29. April 2024 (englisch).
Zhilin Yang (et-al): XLNet. In: Proceedings from NeurIPS 2019. 2019 (englisch, neurips.cc [PDF]).
nih.gov
ncbi.nlm.nih.gov
Renqian Luo (et-al): BioGPT: Generative pre-trained transformer for biomedical text generation and mining. In: Briefings in Bioinformatics. 23. Jahrgang, Nr.6, 3. April 2023, doi:10.1093/bib/bbac409, PMID 36156661, arxiv:2210.10341 (englisch).
Geoffrey Hinton (et-al): Deep neural networks for acoustic modeling in speech recognition. In: IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. Jahrgang, 15. Oktober 2012, doi:10.1109/MSP.2012.2205597 (englisch, stanford.edu [PDF]).