AI-Alignment (German Wikipedia)

Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). „TruthfulQA: Measuring How Models Mimic Human Falsehoods“. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.

acm.org

dl.acm.org

Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.
Orseau, Laurent; Armstrong, Stuart (25. Juni 2016). „Safely interruptible agents“. Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16. Arlington, Virginia, USA: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (19. August 2017). „The off-switch game“. Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
Ng, Andrew Y.; Russell, Stuart J. (29. Juni 2000). „Algorithms for Inverse Reinforcement Learning“. Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.

analyticsindiamag.com

Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar 2022). „Red Teaming Language Models with Language Models“. arXiv:2202.03286 cs.CL. Bhattacharyya, Sreejani (14. Februar 2022). "DeepMind's „red teaming“ language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.

arstechnica.com

Dominguez, Daniel (19. Mai 2022). „DeepMind Introduces Gato, a New Generalist AI Agent“. InfoQ. Archiviert vom Original am 10. Februar 2023. Abgerufen am 9. September 2022.
- Edwards, Ben (26. April, 2022). „Adept's AI assistant can browse, search, and use web apps like a human“. Ars Technica. Archiviert (Memento

arxiv.org

Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22. Februar 2023). „The alignment problem from a deep learning perspective“. arXiv:2209.00626 cs.AI.
Carlsmith, Joseph (16. Juni 2022). „Is Power-Seeking AI an Existential Risk?“. arXiv:2206.13353 cs.CY.
Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback“. arXiv:2203.02155 cs.CL.
Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21. Juni, 2016). „Concrete Problems in AI Safety“. arXiv:1606.06565 cs.AI.
Doshi-Velez, Finale; Kim, Been (2. März 2017). „Towards A Rigorous Science of Interpretable Machine Learning“. arXiv:1702.08608 stat.ML.
Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7. März 2022). „Taxonomy of Machine Learning Safety: A Survey and Primer“. arXiv:2106.04823 cs.LG.
Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16. Juni 2022). „Unsolved Problems in ML Safety“. arXiv:2109.13916 cs.LG.
David Manheim, Scott Garrabrant(2018). „Categorizing Variants of Goodhart's Law“. arXiv:1803.04585 cs.AI.
Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar 2022). „Survey of Hallucination in Natural Language Generation“. ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento
Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli 2022). „On the Opportunities and Risks of Foundation Models“. Stanford CRFM. arXiv:2108.07258.
Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober 2022). „Emergent Abilities of Large Language Models“. Transactions on Machine Learning Research. arXiv:2206.07682. ISSN 2835-8856.
Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). „Broken Neural Scaling Laws“. International Conference on Learning Representations (ICLR), 2023.
Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3. April, 2023). „Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark“. Proceedings of the 40th International Conference on Machine Learning. PMLR. arXiv:2304.03279.
Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19. Dezember 2022). „Discovering Language Model Behaviors with Model-Written Evaluations“. arXiv:2212.09251 cs.CL.
Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (28. November 2017). „AI Safety Gridworlds“. arXiv:1711.09883 cs.LG.
Everitt, Tom; Lea, Gary; Hutter, Marcus (21. Mai 2018). „AGI Safety Literature Review“. arXiv:1805.01109 cs.AI.
Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober 2022). „Scaling Laws for Reward Model Overoptimization“. arXiv:2210.10760 cs.LG.
Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24. Juli 2021). „Aligning AI With Shared Human Values“. International Conference on Learning Representations. arXiv:2008.02275.
Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar 2022). „Red Teaming Language Models with Language Models“. arXiv:2202.03286 cs.CL. Bhattacharyya, Sreejani (14. Februar 2022). "DeepMind's „red teaming“ language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27. September 2021). „Recursively Summarizing Books with Human Feedback“. arXiv:2109.10862 cs.CL.
Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). „Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions“. 2022 IEEE Symposium on Security and Privacy (SP). 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-66541-316-9.
Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19. Oktober 2018). „Supervising strong learners by amplifying weak experts“. arXiv:1810.08575 cs.LG.
Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19. November 2018). „Scalable agent alignment via reward modeling: a research direction“. arXiv:1811.07871.
Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13. Juni 2022). „Self-critiquing models for assisting human evaluators“. arXiv:2206.05802 cs.CL. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15. Dezember 2022). „Constitutional AI: Harmlessness from AI Feedback“. arXiv:2212.08073 cs.CL.
Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13. Oktober 2021). „Truthful AI: Developing and governing AI that does not lie“. arXiv:2110.06674 cs.CY.
Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni 2022). „WebGPT: Browser-assisted question-answering with human feedback“. arXiv:2112.09332 cs.CL. Kumar, Nitish (23. Dezember 2021). „OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser“. MarkTechPost. Archiviert (Memento
Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9. Dezember 2021). „A General Language Assistant as a Laboratory for Alignment“. arXiv:2112.00861 cs.CL.
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (22. Juli 2020). „Language Models are Few-Shot Learners“. arXiv:2005.14165 cs.CL. Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25. Oktober 2022). „In-context Reinforcement Learning with Algorithm Distillation“. arXiv:2210.14215 cs.LG.
Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2. November 2022). „Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals“. Medium. arXiv:2210.01790. Abgerufen am 2. April, 2023.
Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1. Dezember 2021). „Risks from Learned Optimization in Advanced Machine Learning Systems“. arXiv:1906.01820.
Demski, Abram; Garrabrant, Scott (6. Oktober 2020). „Embedded Agency“. arXiv:1902.09469 cs.AI.
Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6. September 2019). „Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings“. arXiv:1902.09980 cs.AI.

berkeley.edu

aima.cs.berkeley.edu

Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach, Prentice Hall. S. 1010. ISBN 978-0-13-604259-4.

cityam.com

Barber, Lynsey (31. Juli 2016). „Phew! Facebook's AI chief says intelligent machines are not a threat to humanity“. CityAM. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August 2022. Abgerufen am 26. August 2022.

dagstuhl.de

drops.dagstuhl.de

Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.

deepmind.com

Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). „Specification gaming: the flip side of AI ingenuity“. Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.

distill.pub

Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.

docs.google.com

Specification gaming examples in AI – master list – Google Drive. Abgerufen am 14. Juli 2023.

doi.org

Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1. März 2023). „Reward (Mis)design for autonomous driving“. Artificial Intelligence. 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. S2CID 233423198.
Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.
Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.
Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Wiener, Norbert (6. Mai, 1960). „Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers“. Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). „TruthfulQA: Measuring How Models Mimic Human Falsehoods“. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar 2022). „Survey of Hallucination in Natural Language Generation“. ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento
Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli 2018). „Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts“. Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August 2021). „Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers“. Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Anderson, Michael; Anderson, Susan Leigh (15. Dezember 2007). „Machine Ethics: Creating an Ethical Intelligent Agent“. AI Magazine. 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332. Abgerufen am 14. März 2023.
Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). „Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions“. 2022 IEEE Symposium on Security and Privacy (SP). 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-66541-316-9.
Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII, Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). „Towards risk-aware artificial intelligence and machine learning systems: An overview“. Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.
Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August 2022). „Advanced artificial agents intervene in the provision of reward“. AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 6. September 2022.

edge.org

Russell, Stuart. „Of Myths and Moonshine“. Edge.org. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original on 10. Februar 2023. Abgerufen am 19. Juli 2022.

elsevier.com

linkinghub.elsevier.com

Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). „Towards risk-aware artificial intelligence and machine learning systems: An overview“. Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.

erichorvitz.com

Horvitz, Eric (27. Juni 2016). „Reflections on Safety and Artificial Intelligence“ (PDF; 6,1 MB). Eric Horvitz. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.

forbes.com

Smith, Craig S. „Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat“. Forbes. Abgerufen am 4. Mai 2023.

futureoflife.org

Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
Future of Life Institute (22. März 2023). „Pause Giant AI Experiments: An Open Letter“. Abgerufen am 20. April, 2023.
Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF; 0,2 MB), archived (Memento vom 31. Mai 2022 im Internet Archive) (PDF) aus dem Original am 31. Mai 2022, abgerufen am 12. September 2022

gcrinstitute.org

Baum, Seth (1. Januar 2021). „2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy“. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 20. Juli 2022.

georgetown.edu

cset.georgetown.edu

The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober 2021) 2021-09-25. „Ethical Norms for New Generation Artificial Intelligence Released“. Übersetzt von Center for Security and Emerging Technology. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023.

gov.uk

"The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”
"The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. actions 9 and 10 of the section „Pillar 3 – Governing AI Effectively“. Archiviert vom Original am 10. Februar 2023.

handle.net

hdl.handle.net

Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.

harvard.edu

ui.adsabs.harvard.edu

Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar 2022). „Survey of Hallucination in Natural Language Generation“. ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento

ieee.org

ieeexplore.ieee.org

Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). „Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions“. 2022 IEEE Symposium on Security and Privacy (SP). 2022 IEEE Symposium on Security and Privacy (SP). San Francisco, CA, USA: IEEE. pp. 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-66541-316-9.

infoq.com

Dominguez, Daniel (19. Mai 2022). „DeepMind Introduces Gato, a New Generalist AI Agent“. InfoQ. Archiviert vom Original am 10. Februar 2023. Abgerufen am 9. September 2022.
- Edwards, Ben (26. April, 2022). „Adept's AI assistant can browse, search, and use web apps like a human“. Ars Technica. Archiviert (Memento
- Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.

jair.org

Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli 2018). „Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts“. Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August 2021). „Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers“. Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.

longtermrisk.org

Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda“. Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar 2023. Abgerufen am 18. Juli 2022.

lukemuehlhauser.com

Muehlhauser, Luke (29. Januar 2016). „Sutskever on Talking Machines“. Luke Muehlhauser. Archiviert (Memento vom 27. September 2022 im Internet Archive) vom Original am 27. September 2022. Abgerufen am 26. August 2022.

machinethoughts.wordpress.com

McAllester (10. August 2014). „Friendly AI and the Servant Mission“. Machine Thoughts. Archiviert (Memento vom 28. September 2022 im Internet Archive) vom Original am 28. September 2022. Abgerufen am 12. September 2022.

marktechpost.com

Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni 2022). „WebGPT: Browser-assisted question-answering with human feedback“. arXiv:2112.09332 cs.CL. Kumar, Nitish (23. Dezember 2021). „OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser“. MarkTechPost. Archiviert (Memento

medium.com

deepmindsafetyresearch.medium.com

Pedro A. Ortega; Maini, Vishal; DeepMind safety team (27. September 2018). „Building safe artificial intelligence: specification, robustness, and assurance“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März 2021). „Alignment of Language Agents“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2. November 2022). „Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals“. Medium. arXiv:2210.01790. Abgerufen am 2. April, 2023.

medium.com

Chollet, François (8. Dezember 2018). „The implausibility of intelligence explosion“. Medium. Archiviert (Memento vom 22. März 2021 im Internet Archive) aus dem Original am 22. März 2021. Abgerufen am 26. August 2022.

mit.edu

direct.mit.edu

Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.

mlr.press

proceedings.mlr.press

Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28. Juni 2022). „Goal Misgeneralization in Deep Reinforcement Learning“. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Abgerufen am 11. März 2023.

neurips.cc

proceedings.neurips.cc

Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI“. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. Abgerufen am 11. März 2023.

nih.gov

ncbi.nlm.nih.gov

Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
Wiener, Norbert (6. Mai, 1960). „Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers“. Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.

nscai.gov

NSCAI Final Report (PDF; 14 MB). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.

nytimes.com

The Ezra Klein Show (4. Juni 2021). „If 'All Models Are Wrong,' Why Do We Give Them So Much Power?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 13. März 2023.
Johnson, Steven; Iziev, Nikita (15. April, 2022). „A.I. Is Mastering Language. Should We Trust What It Says?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 18. Juli 2022.

nyu.edu

bhr.stern.nyu.edu

Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Bericht). Center for Business and Human Rights, NYU. Archiviert (Memento vom 1. Februar 2023 im Internet Archive) aus dem Original am 1. Februar 2023. Abgerufen am 12. September 2022.

openai.com

Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
OpenAI. „Developing safe & responsible AI“. Abgerufen am 13. März 2023.
Amodei, Dario; Christiano, Paul; Ray, Alex (13. Juni 2017). „Learning from Human Preferences“. OpenAI. Archiviert vom Original am 3. Januar 2021. Abgerufen am 21. Juli 2022.
Irving, Geoffrey; Amodei, Dario (3. Mai 2018). „AI Safety via Debate“. OpenAI. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
Leike, Jan; Schulman, John; Wu, Jeffrey (24. August 2022). „Our approach to alignment research“. OpenAI. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 9. September 2022.
Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September 2019). „Emergent Tool Use from Multi-Agent Interaction“. OpenAI. Archiviert (Memento vom 25. September 2022 im Internet Archive) vom Original am 25. September 2022. Abgerufen am 26. August 2022.

openreview.net

Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14. Februar 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Abgerufen am 21. Juli 2022.
Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). „Optimal policies tend to seek power“. Advances in neural information processing systems.
Turner, Alexander Matt; Tadepalli, Prasad (2022). „Parametrically retargetable decision-makers tend to seek power“. Advances in neural information processing systems.

pearson.com

Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Abgerufen am 12. September 2022.
Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4. Ausgabe). Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751.

penguinrandomhouse.com

Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 978-0-525-55863-7. OCLC 1113410915.

quantamagazine.org

Rorvig, Mordechai (14. April, 2022). „Researchers Gain New Understanding From Simple AI“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
Ornes, Stephen (18. November 2019). „Playing Hide-and-Seek, Machines Invent New Tools“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.

reddit.com

Schmidhuber, Jürgen (6. März 2015). „I am Jürgen Schmidhuber, AMA!“ (Reddit Comment). r/MachineLearning. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.

reuters.com

Shepardson, David (24. Mai 2018). „Uber disabled emergency braking in self-driving car: U.S. agency“. Reuters. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 20. Juli 2022.

safe.ai

„Statement on AI Risk | CAIS“. www.safe.ai. Abgerufen am 17. Juli 2023.

sagepub.com

journals.sagepub.com

Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.

science.org

Wiener, Norbert (6. Mai, 1960). „Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers“. Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.

scientificamerican.com

Marcus, Gary (6. Juni 2022). „Artificial General Intelligence Is Not as Imminent as You Might Think“. Scientific American. Archiviert (Memento vom 15. September 2022 im Internet Archive) vom Original am 15. September 2022. Abgerufen am 26. August 2022.
Shermer, Michael (1. März 2017). „Artificial Intelligence Is Not a Threat—Yet“. Scientific American. Archiviert (Memento vom 1. Dezember 2017 im Internet Archive) vom Original am 1. Dezember 2017. Abgerufen am 26. August 2022.

scottaaronson.blog

Aaronson, Scott (17. Juni 2022). „OpenAI!“. Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August 2022. Abgerufen am 12. September 2022.

semanticscholar.org

api.semanticscholar.org

Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.
Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.
Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). „TruthfulQA: Measuring How Models Mimic Human Falsehoods“. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar 2022). „Survey of Hallucination in Natural Language Generation“. ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento
Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli 2018). „Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts“. Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII, Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). „Towards risk-aware artificial intelligence and machine learning systems: An overview“. Decision Support Systems. 159: 113800. doi:10.1016/j.dss.2022.113800. S2CID 248585546.

springer.com

link.springer.com

Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII, Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.

stanford.edu

fsi.stanford.edu

Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12. Juli 2022). „On the Opportunities and Risks of Foundation Models“. Stanford CRFM. arXiv:2108.07258.

technologyreview.com

Heaven, Will Douglas (27. Januar 2022). „The new version of GPT-3 is much better behaved (and should be less toxic)“. MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
The Guardian (8. September 2020). „A robot wrote this entire article. Are you scared yet, human?“. The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September 2020. Abgerufen am 23. Juli 2022.
- Heaven, Will Douglas (20. Juli 2020). „OpenAI's new language generator GPT-3 is shockingly good—and completely mindless“. MIT Technology Review. Archiviert (Memento

theguardian.com

Naughton, John (2. Oktober 2021). „The truth about artificial intelligence? It isn't that honest“. The Observer. ISSN 0029-7712. Archiviert (Memento vom 13. Februar 2023 im Internet Archive) vom Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
The Guardian (8. September 2020). „A robot wrote this entire article. Are you scared yet, human?“. The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September 2020. Abgerufen am 23. Juli 2022.
- Heaven, Will Douglas (20. Juli 2020). „OpenAI's new language generator GPT-3 is shockingly good—and completely mindless“. MIT Technology Review. Archiviert (Memento

theregister.com

Richardson, Tim (22. September 2021). „UK publishes National Artificial Intelligence Strategy“. The Register. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 14. November 2021.

towardsdatascience.com

Harris, Jeremie (16. Juni 2021). „The case against (worrying about) existential risk from AI“. Medium. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August 2022. Abgerufen am 26. August 2022.
Moltzau, Alex (24. August 2019). „Debating the AI Safety Debate“. Towards Data Science. Archiviert (Memento vom 13. Oktober 2022 im Internet Archive) vom Original am 13. Oktober 2022. Abgerufen am 23. Juli 2022.

un.org

Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
"UN Secretary-General's report on 'Our Common Agenda'" (Memento vom 16. Februar 2023 im Internet Archive). 2021. p. 63. Archiviert vom Original am 16. Februar 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.

unite.ai

Anderson, Martin (5. April 2022). „The Perils of Using Quotations to Authenticate NLG Content“. Unite.AI. Archived (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 21. Juli 2022.

venturebeat.com

Wiggers, Kyle (5. Februar 2022). „Despite recent progress, AI-powered chatbots still have a long way to go“. VentureBeat. Archived (Memento vom 23. Juli 2022 im Internet Archive) aus dem Original am 23. Juli 2022. Abgerufen am 23. Juli 2022.
Wiggers, Kyle (23. September 2021). „OpenAI unveils model that can summarize books of any length“. VentureBeat. Archiviert (Memento vom 23. Juli 2022 im Internet Archive) vom Original am 23. Juli 2022. Abgerufen am 23. Juli 2022.
Wiggers, Kyle (20. September 2021). „Falsehoods more likely with large language models“. VentureBeat. Archiviert (Memento vom 4. August 2022 im Internet Archive) vom Original am 4. August 2022. Abgerufen am 23. Juli 2022.

vetta.org

Shane (31. August 2009). „Funding safe AGI“. vetta project. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.

vice.com

Cox, Joseph (15. März 2023). „GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human“. Vice. Abgerufen am 10. April, 2023.

washingtonpost.com

Rossi, Francesca. „How do you teach a machine to be moral?“. The Washington Post. ISSN 0190-8286. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.

web.archive.org

Christian, Brian (2020). The alignment problem: Machine learning and human values (Memento vom 10. Februar 2023 im Internet Archive), W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar 2023. Abgerufen am 10. Februar 2022.
Zaremba, Wojciech; Brockman, Greg; OpenAI (10. August 2021). „OpenAI Codex“. OpenAI. Archiviert (Memento vom 3. Februar 2023 im Internet Archive) vom Original am 3. Februar 2023. Abgerufen am 23. Juli 2022.
Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Future of Life Institute (11. August 2017). „Asilomar AI Principles“. Future of Life Institute. Archiviert vom Original am 10. Oktober 2022. Abgerufen am 18. Juli 2022. Die KI-Prinzipien, die auf der Asilomar Conference on Beneficial AI kreiert wurden, wurden von 1797 KI- und Robotikforschern unterzeichnet. Vereinte Nationen (2021). Our Common Agenda: Report of the Secretary-General (PDF; 4,7 MB) (Report). New York: Vereinte Nationen. Archiviert (Memento vom 22. Mai 2022 im Internet Archive) (PDF) vom Original am 22. Mai 2022. Abgerufen am 12. September 2022. “Die [UN] könnten zudem KI-Regulationen fördern, um das Alignment nach gemeinsamen globalen Werten sicherzustellen.”
Pedro A. Ortega; Maini, Vishal; DeepMind safety team (27. September 2018). „Building safe artificial intelligence: specification, robustness, and assurance“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
Rorvig, Mordechai (14. April, 2022). „Researchers Gain New Understanding From Simple AI“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.
Heaven, Will Douglas (27. Januar 2022). „The new version of GPT-3 is much better behaved (and should be less toxic)“. MIT Technology Review. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 18. Juli 2022.
Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda“. Center on Long-Term Risk. Archiviert (Memento vom 1. Januar 2023 im Internet Archive) vom Original am 1. Januar 2023. Abgerufen am 18. Juli 2022.
Prunkl, Carina; Whittlestone, Jess (7. Februar, 2020). „Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society“. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society. New York NY USA: ACM: 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archiviert (Memento vom 16. Oktober 2022 im Internet Archive) vom Original am 16. Oktober 2022. Abgerufen am 12. September 2022.
Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Wiener, Norbert (6. Mai, 1960). „Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers“. Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
The Ezra Klein Show (4. Juni 2021). „If 'All Models Are Wrong,' Why Do We Give Them So Much Power?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 13. März 2023.
Johnson, Steven; Iziev, Nikita (15. April, 2022). „A.I. Is Mastering Language. Should We Trust What It Says?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 18. Juli 2022.
Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21. April, 2020). „Specification gaming: the flip side of AI ingenuity“. Deepmind. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). „TruthfulQA: Measuring How Models Mimic Human Falsehoods“. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics: 3214–3252. doi:10.18653/v1/2022.acl-long.229. S2CID 237532606. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Naughton, John (2. Oktober 2021). „The truth about artificial intelligence? It isn't that honest“. The Observer. ISSN 0029-7712. Archiviert (Memento vom 13. Februar 2023 im Internet Archive) vom Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1. Februar 2022). „Survey of Hallucination in Natural Language Generation“. ACM Computing Surveys. 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archiviert (Memento
Russell, Stuart. „Of Myths and Moonshine“. Edge.org. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original on 10. Februar 2023. Abgerufen am 19. Juli 2022.
Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November 2021). „Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest“. The Wall Street Journal. ISSN 0099-9660. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 19. Juli 2022.
Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Bericht). Center for Business and Human Rights, NYU. Archiviert (Memento vom 1. Februar 2023 im Internet Archive) aus dem Original am 1. Februar 2023. Abgerufen am 12. September 2022.
Shepardson, David (24. Mai 2018). „Uber disabled emergency braking in self-driving car: U.S. agency“. Reuters. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 20. Juli 2022.
Baum, Seth (1. Januar 2021). „2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy“. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 20. Juli 2022.
Dominguez, Daniel (19. Mai 2022). „DeepMind Introduces Gato, a New Generalist AI Agent“. InfoQ. Archiviert vom Original am 10. Februar 2023. Abgerufen am 9. September 2022.
- Edwards, Ben (26. April, 2022). „Adept's AI assistant can browse, search, and use web apps like a human“. Ars Technica. Archiviert (Memento
- Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli 2018). „Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts“. Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
- Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August 2021). „Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers“. Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
- Muehlhauser, Luke (29. Januar 2016). „Sutskever on Talking Machines“. Luke Muehlhauser. Archiviert (Memento vom 27. September 2022 im Internet Archive) vom Original am 27. September 2022. Abgerufen am 26. August 2022.
- Rossi, Francesca. „How do you teach a machine to be moral?“. The Washington Post. ISSN 0190-8286. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
- Aaronson, Scott (17. Juni 2022). „OpenAI!“. Shtetl-Optimized. Archiviert (Memento vom 27. August 2022 im Internet Archive) vom Original 27. August 2022. Abgerufen am 12. September 2022.
- Selman, Bart, Intelligence Explosion: Science or Fiction? (PDF; 0,2 MB), archived (Memento vom 31. Mai 2022 im Internet Archive) (PDF) aus dem Original am 31. Mai 2022, abgerufen am 12. September 2022
- McAllester (10. August 2014). „Friendly AI and the Servant Mission“. Machine Thoughts. Archiviert (Memento vom 28. September 2022 im Internet Archive) vom Original am 28. September 2022. Abgerufen am 12. September 2022.
- Schmidhuber, Jürgen (6. März 2015). „I am Jürgen Schmidhuber, AMA!“ (Reddit Comment). r/MachineLearning. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
- Shane (31. August 2009). „Funding safe AGI“. vetta project. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
- Horvitz, Eric (27. Juni 2016). „Reflections on Safety and Artificial Intelligence“ (PDF; 6,1 MB). Eric Horvitz. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) (PDF) vom Original am 10. Oktober 2022. Abgerufen am 20. April, 2020.
- Chollet, François (8. Dezember 2018). „The implausibility of intelligence explosion“. Medium. Archiviert (Memento vom 22. März 2021 im Internet Archive) aus dem Original am 22. März 2021. Abgerufen am 26. August 2022.
- Marcus, Gary (6. Juni 2022). „Artificial General Intelligence Is Not as Imminent as You Might Think“. Scientific American. Archiviert (Memento vom 15. September 2022 im Internet Archive) vom Original am 15. September 2022. Abgerufen am 26. August 2022.
- Barber, Lynsey (31. Juli 2016). „Phew! Facebook's AI chief says intelligent machines are not a threat to humanity“. CityAM. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August 2022. Abgerufen am 26. August 2022.
- Harris, Jeremie (16. Juni 2021). „The case against (worrying about) existential risk from AI“. Medium. Archiviert (Memento vom 26. August 2022 im Internet Archive) vom Original am 26. August 2022. Abgerufen am 26. August 2022.
- Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. „Preference Learning“. Dagstuhl Reports. 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 12. September 2022.
- Anderson, Martin (5. April 2022). „The Perils of Using Quotations to Authenticate NLG Content“. Unite.AI. Archived (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 21. Juli 2022.
- Wiggers, Kyle (5. Februar 2022). „Despite recent progress, AI-powered chatbots still have a long way to go“. VentureBeat. Archived (Memento vom 23. Juli 2022 im Internet Archive) aus dem Original am 23. Juli 2022. Abgerufen am 23. Juli 2022.
- Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7. Februar 2022). „Red Teaming Language Models with Language Models“. arXiv:2202.03286 cs.CL. Bhattacharyya, Sreejani (14. Februar 2022). "DeepMind's „red teaming“ language models with language models: What is it?". Analytics India Magazine. Archived (Memento vom 13. Februar 2023 im Internet Archive) aus dem Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
- MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archiviert (Memento vom 14. September 2022 im Internet Archive) vom Original am 14. September 2022. Abgerufen am 12. September 2022.
- Irving, Geoffrey; Amodei, Dario (3. Mai 2018). „AI Safety via Debate“. OpenAI. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
- Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Genetic Programming Theory and Practice XVII, Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
- Wiblin, Robert (2. Oktober 2018). „Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems“ (Podcast). 80,000 hours. No. 44. Archiviert (Memento vom 14. Dezember 2022 im Internet Archive) vom Original am 14. Dezember 2022. Abgerufen am 23. Juli 2022.
- Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
- Leike, Jan; Schulman, John; Wu, Jeffrey (24. August 2022). „Our approach to alignment research“. OpenAI. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 9. September 2022.
- Wiggers, Kyle (23. September 2021). „OpenAI unveils model that can summarize books of any length“. VentureBeat. Archiviert (Memento vom 23. Juli 2022 im Internet Archive) vom Original am 23. Juli 2022. Abgerufen am 23. Juli 2022.
- Moltzau, Alex (24. August 2019). „Debating the AI Safety Debate“. Towards Data Science. Archiviert (Memento vom 13. Oktober 2022 im Internet Archive) vom Original am 13. Oktober 2022. Abgerufen am 23. Juli 2022.
- The Guardian (8. September 2020). „A robot wrote this entire article. Are you scared yet, human?“. The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September 2020. Abgerufen am 23. Juli 2022.
  - Heaven, Will Douglas (20. Juli 2020). „OpenAI's new language generator GPT-3 is shockingly good—and completely mindless“. MIT Technology Review. Archiviert (Memento
  - Wiggers, Kyle (20. September 2021). „Falsehoods more likely with large language models“. VentureBeat. Archiviert (Memento vom 4. August 2022 im Internet Archive) vom Original am 4. August 2022. Abgerufen am 23. Juli 2022.
  - Alford, Anthony (13. Juli 2021). „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022. Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21. Januar 2022). „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“. arXiv:2112.11446.
  - Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1. Juni 2022). „WebGPT: Browser-assisted question-answering with human feedback“. arXiv:2112.09332 cs.CL. Kumar, Nitish (23. Dezember 2021). „OpenAI Researchers Find Ways To More Accurately Answer Open-Ended Questions Using A Text-Based Web Browser“. MarkTechPost. Archiviert (Memento
  - Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30. März 2021). „Alignment of Language Agents“. DeepMind Safety Research – Medium. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 23. Juli 2022.
  - Ornes, Stephen (18. November 2019). „Playing Hide-and-Seek, Machines Invent New Tools“. Quanta Magazine. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 26. August 2022.
  - Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17. September 2019). „Emergent Tool Use from Multi-Agent Interaction“. OpenAI. Archiviert (Memento vom 25. September 2022 im Internet Archive) vom Original am 25. September 2022. Abgerufen am 26. August 2022.
  - Shermer, Michael (1. März 2017). „Artificial Intelligence Is Not a Threat—Yet“. Scientific American. Archiviert (Memento vom 1. Dezember 2017 im Internet Archive) vom Original am 1. Dezember 2017. Abgerufen am 26. August 2022.
  - Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August 2022). „Advanced artificial agents intervene in the provision of reward“. AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 6. September 2022.
  - "UN Secretary-General's report on 'Our Common Agenda'" (Memento vom 16. Februar 2023 im Internet Archive). 2021. p. 63. Archiviert vom Original am 16. Februar 2023. Der Vertrag könnte zudem Regulationen für KI befördern, um sicherzustellen, dass sie nach gemeinsamen globalen Werten ausgerichtet ist.
  - The National New Generation Artificial Intelligence Governance Specialist Committee (12. Oktober 2021) 2021-09-25. „Ethical Norms for New Generation Artificial Intelligence Released“. Übersetzt von Center for Security and Emerging Technology. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023.
  - Richardson, Tim (22. September 2021). „UK publishes National Artificial Intelligence Strategy“. The Register. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 14. November 2021.
  - "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. Archiviert vom Original am 10. Februar 2023. “Die Regierung nimmt die langfristigen Risiken falsch wertausgerichteter KI und die Möglichkeit unvorhersehbarer Veränderungen für das Vereinigte Königreich und die Welt, die das mit sich bringen würde ernst.”
  - "The National AI Strategy of the UK" (Memento vom 10. Februar 2023 im Internet Archive). 2021. actions 9 and 10 of the section „Pillar 3 – Governing AI Effectively“. Archiviert vom Original am 10. Februar 2023.
  - NSCAI Final Report (PDF; 14 MB). Washington, DC: The National Security Commission on Artificial Intelligence. 2021. Archiviert (PDF) vom Original (Memento vom 15. Februar 2023 im Internet Archive) am 15. Februar 2023. Abgerufen am 17. Oktober 2022.

whatweowethefuture.com

MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archiviert (Memento vom 14. September 2022 im Internet Archive) vom Original am 14. September 2022. Abgerufen am 12. September 2022.

wikipedia.org

en.wikipedia.org

Gao, Leo; Schulman, John; Hilton, Jacob (19. Oktober 2022). „Scaling Laws for Reward Model Overoptimization“. arXiv:2210.10760 cs.LG.

wiley.com

onlinelibrary.wiley.com

Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August 2022). „Advanced artificial agents intervene in the provision of reward“. AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 6. September 2022.

worldcat.org

Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4. Ausgabe). Pearson. pp. 31–34. ISBN 978-1-292-40113-3. OCLC 1303900751. Abgerufen am 12. September 2022.
Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 978-0-525-55863-7. OCLC 1113410915.
Christian, Brian (2020). The alignment problem: Machine learning and human values (Memento vom 10. Februar 2023 im Internet Archive), W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archiviert vom Original am 10. Februar 2023. Abgerufen am 10. Februar 2022.
Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1. September 2013). „Reinforcement learning in robotics: A survey“. The International Journal of Robotics Research. 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being“. International Journal of Community Well-Being. 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. S2CID 226254676.
Russell, Stuart; Dewey, Daniel; Tegmark, Max (31. Dezember 2015). „Research Priorities for Robust and Beneficial Artificial Intelligence“. AI Magazine. 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archiviert (Memento vom 2. Februar 2023 im Internet Archive) vom Original am 2. Februar 2023. Abgerufen am 12. September 2022.
Irving, Geoffrey; Askell, Amanda (19. Februar, 2019). „AI Safety Needs Social Scientists“. Distill. 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Wiener, Norbert (6. Mai, 1960). „Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers“. Science. 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. Archiviert (Memento vom 15. Oktober 2022 im Internet Archive) vom Original am 15. Oktober 2022. Abgerufen am 12. September 2022.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
The Ezra Klein Show (4. Juni 2021). „If 'All Models Are Wrong,' Why Do We Give Them So Much Power?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 15. Februar 2023 im Internet Archive) vom Original am 15. Februar 2023. Abgerufen am 13. März 2023.
Johnson, Steven; Iziev, Nikita (15. April, 2022). „A.I. Is Mastering Language. Should We Trust What It Says?“. The New York Times. ISSN 0362-4331. Archiviert (Memento vom 24. November 2022 im Internet Archive) vom Original am 24. November 2022. Abgerufen am 18. Juli 2022.
Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4. Ausgabe). Pearson. pp. 4–5. ISBN 978-1-292-40113-3. OCLC 1303900751.
Gabriel, Iason (1. September 2020). „Artificial Intelligence, Values, and Alignment“. Minds and Machines. 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. S2CID 210920551. Archiviert (Memento vom 15. März 2023 im Internet Archive) vom Original am 15. März 2023. Abgerufen am 23. Juli 2022.
Naughton, John (2. Oktober 2021). „The truth about artificial intelligence? It isn't that honest“. The Observer. ISSN 0029-7712. Archiviert (Memento vom 13. Februar 2023 im Internet Archive) vom Original am 13. Februar 2023. Abgerufen am 23. Juli 2022.
Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November 2021). „Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest“. The Wall Street Journal. ISSN 0099-9660. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 19. Juli 2022.
Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (26. Oktober 2022). „Emergent Abilities of Large Language Models“. Transactions on Machine Learning Research. arXiv:2206.07682. ISSN 2835-8856.
Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31. Juli 2018). „Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts“. Journal of Artificial Intelligence Research. 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. S2CID 8746462. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2. August 2021). „Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers“. Journal of Artificial Intelligence Research. 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. S2CID 233740003. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148.
Rossi, Francesca. „How do you teach a machine to be moral?“. The Washington Post. ISSN 0190-8286. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 12. September 2022.
Anderson, Michael; Anderson, Susan Leigh (15. Dezember 2007). „Machine Ethics: Creating an Ethical Intelligent Agent“. AI Magazine. 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332. Abgerufen am 14. März 2023.
MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archiviert (Memento vom 14. September 2022 im Internet Archive) vom Original am 14. September 2022. Abgerufen am 12. September 2022.
Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). „The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities“. Artificial Life. 26 (2): 274–306. doi:10.1162/artl a 00319. ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archiviert (Memento vom 10. Oktober 2022 im Internet Archive) vom Original am 10. Oktober 2022. Abgerufen am 12. September 2022.
The Guardian (8. September 2020). „A robot wrote this entire article. Are you scared yet, human?“. The Guardian. ISSN 0261-3077. Archiviert vom Original am 8. September 2020. Abgerufen am 23. Juli 2022.
- Heaven, Will Douglas (20. Juli 2020). „OpenAI's new language generator GPT-3 is shockingly good—and completely mindless“. MIT Technology Review. Archiviert (Memento
- McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
- McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15. Dezember 2006). „A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955“. AI Magazine. 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
- Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29. August 2022). „Advanced artificial agents intervene in the provision of reward“. AI Magazine. 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) vom Original am 10. Februar 2023. Abgerufen am 6. September 2022.

wsj.com

Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5. November 2021). „Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest“. The Wall Street Journal. ISSN 0099-9660. Archiviert (Memento vom 10. Februar 2023 im Internet Archive) aus dem Original am 10. Februar 2023. Abgerufen am 19. Juli 2022.