Wei, Jason; Tay, Yi (15 de junho de 2022). «Emergent Abilities of Large Language Models». arXiv:2206.07682 [cs.CL]
Leike, Jan; Martic, Miljan (28 de novembro de 2017). «AI Safety Gridworlds». arXiv:1711.09883 [cs.LG]
Turner, Alexander Matt; Smith, Logan; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (3 de dezembro de 2021). «Optimal Policies Tend to Seek Power». Neural Information Processing Systems. 34. arXiv:1912.01683
Everitt, Tom; Lea, Gary (21 de maio de 2018). «AGI Safety Literature Review». arXiv:1805.01109 [cs.AI]
Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24 de julho de 2021). «Aligning AI With Shared Human Values». International Conference on Learning Representations. arXiv:2008.02275
Perez, Ethan; Huang, Saffron (7 de fevereiro de 2022). «Red Teaming Language Models with Language Models». arXiv:2202.03286 [cs.CL]
Wu, Jeff; Ouyang, Long (27 de setembro de 2021). «Recursively Summarizing Books with Human Feedback». arXiv:2109.10862 [cs.CL]
Christiano, Paul; Shlegeris, Buck (19 de outubro de 2018). «Supervising strong learners by amplifying weak experts». arXiv:1810.08575 [cs.LG]
Hendrycks, Dan; Carlini, Nicholas (16 de junho de 2022). «Unsolved Problems in ML Safety». arXiv:2109.13916 [cs.LG]
Leike, Jan; Krueger, David (19 de novembro de 2018). «Scalable agent alignment via reward modeling: a research direction». arXiv:1811.07871 [cs.LG]
Evans, Owain; Cotton-Barratt, Owen (13 de outubro de 2021). «Truthful AI: Developing and governing AI that does not lie». arXiv:2110.06674 [cs.CY]
Nakano, Reiichiro; Hilton, Jacob (1 de junho de 2022). «WebGPT: Browser-assisted question-answering with human feedback». arXiv:2112.09332 [cs.CL]
Askell, Amanda; Bai, Yuntao (9 de dezembro de 2021). «A General Language Assistant as a Laboratory for Alignment». arXiv:2112.00861 [cs.CL]
Everitt, Tom; Lea, Gary; Hutter, Marcus (21 de maio de 2018). «AGI Safety Literature Review». 1805.01109. arXiv:1805.01109
Demski, Abram; Garrabrant, Scott (6 de outubro de 2020). «Embedded Agency». arXiv:1902.09469 [cs.AI]
Everitt, Tom; Ortega, Pedro A. (6 de setembro de 2019). «Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings». arXiv:1902.09980 [cs.AI]
Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. «Preference Learning». Dagstuhl Reports (em inglês). 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1
deepmind.com
Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21 de abril de 2020). «Specification gaming: the flip side of AI ingenuity». Deepmind. Consultado em 26 de agosto de 2022
Orseau, Laurent; Armstrong, Stuart (1 de janeiro de 2016). «Safely Interruptible Agents». Consultado em 20 de julho de 2022
Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30 de março de 2021). «Alignment of Language Agents». DeepMind Safety Research - Medium. Consultado em 23 de julho de 2022
Turner, Alexander Matt; Smith, Logan; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (3 de dezembro de 2021). «Optimal Policies Tend to Seek Power». Neural Information Processing Systems. 34. arXiv:1912.01683
Amodei, Dario; Christiano, Paul; Ray, Alex (13 de junho de 2017). «Learning from Human Preferences». OpenAI. Consultado em 21 de julho de 2022
Hilton, Jacob; Gao, Leo (13 de abril de 2022). «Measuring Goodhart's Law». OpenAI. Consultado em 9 de setembro de 2022
Irving, Geoffrey; Amodei, Dario (3 de maio de 2018). «AI Safety via Debate». OpenAI. Consultado em 23 de julho de 2022
Leike, Jan; Schulman, John; Wu, Jeffrey (24 de agosto de 2022). «Our approach to alignment research». OpenAI. Consultado em 9 de setembro de 2022
Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17 de setembro de 2019). «Emergent Tool Use from Multi-Agent Interaction». OpenAI. Consultado em 26 de agosto de 2022