Orseau, Laurent; Armstrong, Stuart (25. Juni 2016). „Safely interruptible agents“. Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (19. August 2017). „The off-switch game“. Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
Ng, Andrew Y.; Russell, Stuart J. (29. Juni 2000). „Algorithms for Inverse Reinforcement Learning“. Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar 2023). „The alignment problem from a deep learning perspective“. arXiv:2209.00626cs.AI.
Carlsmith, Joseph (16. Juni 2022). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353cs.CY.
Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback“. arXiv:2203.02155cs.CL.
Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). „Concrete Problems in AI Safety“. arXiv:1606.06565cs.AI.
Doshi-Velez, Finale; Kim, Been (2. März 2017). „Towards A Rigorous Science of Interpretable Machine Learning“. arXiv:1702.08608stat.ML.
Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März 2022). „Taxonomy of Machine Learning Safety: A Survey and Primer“. arXiv:2106.04823cs.LG.
Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni 2022). „Unsolved Problems in ML Safety“. arXiv:2109.13916cs.LG.
David Manheim, Scott Garrabrant(2018). „Categorizing Variants of Goodhart's Law“. arXiv:1803.04585cs.AI.
Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli 2022). „On the Opportunities and Risks of Foundation Models“. Stanford CRFM. arXiv:2108.07258.
Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober 2022). „Emergent Abilities of Large Language Models“. Transactions on Machine Learning Research. arXiv:2206.07682. ISSN2835-8856.
Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). „Broken Neural Scaling Laws“. International Conference on Learning Representations (ICLR), 2023.
Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3. April, 2023). „Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark“. Proceedings of the 40th International Conference on Machine Learning. PMLR. arXiv:2304.03279.
Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai 2018). „AGI Safety Literature Review“. arXiv:1805.01109cs.AI.
Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober 2022). „Scaling Laws for Reward Model Overoptimization“. arXiv:2210.10760cs.LG.
Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli 2021). „Aligning AI With Shared Human Values“. International Conference on Learning Representations. arXiv:2008.02275.
Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September 2021). „Recursively Summarizing Books with Human Feedback“. arXiv:2109.10862cs.CL.
Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober 2018). „Supervising strong learners by amplifying weak experts“. arXiv:1810.08575cs.LG.
Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19. November 2018). „Scalable agent alignment via reward modeling: a research direction“. arXiv:1811.07871.
Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni 2022). „Self-critiquing models for assisting human evaluators“. arXiv:2206.05802cs.CL. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember 2022). „Constitutional AI: Harmlessness from AI Feedback“. arXiv:2212.08073cs.CL.
Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober 2021). „Truthful AI: Developing and governing AI that does not lie“. arXiv:2110.06674cs.CY.
Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1. Dezember 2021). „Risks from Learned Optimization in Advanced Machine Learning Systems“. arXiv:1906.01820.
Demski, Abram; Garrabrant, Scott (6. Oktober 2020). „Embedded Agency“. arXiv:1902.09469cs.AI.
Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6. September 2019). „Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings“. arXiv:1902.09980cs.AI.
Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.
deepmind.com
Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). „Specification gaming: the flip side of AI ingenuity“. Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.
Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet.
Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
"The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”
Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März 2021). „Alignment of Language Agents“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni 2022). „Goal Misgeneralization in Deep Reinforcement Learning“. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März 2023.
neurips.cc
proceedings.neurips.cc
Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.
NSCAI Final Report (PDF; 14 MB). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.
Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni 2017). „Learning from Human Preferences“. OpenAI. Archiviert vom Original am 3. Januar 2021. Abgerufen am 21. Juli 2022.
Aaronson, Scott (17. Juni 2022). „OpenAI!“. Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August 2022. Abgerufen am 12. September 2022.
Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli 2022). „On the Opportunities and Risks of Foundation Models“. Stanford CRFM. arXiv:2108.07258.
Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet.
Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet.
Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). „Specification gaming: the flip side of AI ingenuity“. Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.
Aaronson, Scott (17. Juni 2022). „OpenAI!“. Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August 2022. Abgerufen am 12. September 2022.
Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März 2021). „Alignment of Language Agents“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
"The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”
NSCAI Final Report (PDF; 14 MB). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.