Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (2022년 8월 4일). “2022 Expert Survey on Progress in AI”. 《AI Impacts》. 2022년 11월 23일에 원본 문서에서 보존된 문서. 2022년 11월 23일에 확인함.
Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2021년 5월 5일). “Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers”. 《Journal of Artificial Intelligence Research》 71. arXiv:2105.02117. doi:10.1613/jair.1.12895.
Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe (2022년 8월 26일). “What Do NLP Researchers Believe? Results of the NLP Community Metasurvey”. 《Association for Computational Linguistics》. arXiv:2208.12852.
Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014년 2월 19일). “Intriguing properties of neural networks”. 《ICLR》. arXiv:1312.6199.
Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (2017년 2월 10일). “Adversarial examples in the physical world”. 《ICLR》. arXiv:1607.02533.
Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (2019년 9월 4일). “Towards Deep Learning Models Resistant to Adversarial Attacks”. 《ICLR》. arXiv:1706.06083.
Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (2018년 3월 16일). “Adversarial Logit Pairing”. arXiv:1803.06373.
Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2014년 2월 19일). “Intriguing properties of neural networks”. 《ICLR》. arXiv:1312.6199.
Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (2018년 7월 19일). “Motivating the Rules of the Game for Adversarial Example Research”. arXiv:1807.06732.
Carlini, Nicholas; Wagner, David (2018년 3월 29일). “Audio Adversarial Examples: Targeted Attacks on Speech-to-Text”. 《IEEE Security and Privacy Workshops》. arXiv:1801.01944.
Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (2022년 9월 9일). “Adversarial Examples in Constrained Domains”. arXiv:2011.01183.
Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (2019년 4월 13일). “Exploring Adversarial Examples in Malware Detection”. 《IEEE Security and Privacy Workshops》. arXiv:1810.08280.
Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (2022년 3월 4일). “Training language models to follow instructions with human feedback”. 《NeurIPS》. arXiv:2203.02155.
Gao, Leo; Schulman, John; Hilton, Jacob (2022년 10월 19일). “Scaling Laws for Reward Model Overoptimization”. 《ICML》. arXiv:2210.10760.
Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (2021년 10월 27일). “RoMA: Robust Model Adaptation for Offline Model-based Optimization”. 《NeurIPS》. arXiv:2110.14188.
Hendrycks, Dan; Mazeika, Mantas (2022년 9월 20일). “X-Risk Analysis for AI Research”. arXiv:2206.05862.
Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (2019년 12월 17일). “Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift”. 《NeurIPS》. arXiv:1906.02530.
Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). 〈Description of Corner Cases in Automated Driving: Goals and Challenges〉. 《2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW)》. 1023–1028쪽. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN978-1-6654-0191-3.
Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (2019년 1월 28일). “Deep Anomaly Detection with Outlier Exposure”. 《ICLR》. arXiv:1812.04606.
Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (2022년 3월 21일). “ViM: Out-Of-Distribution with Virtual-logit Matching”. 《CVPR》. arXiv:2203.10807.
Hendrycks, Dan; Gimpel, Kevin (2018년 10월 3일). “A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks”. 《ICLR》. arXiv:1610.02136.
Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James (2019년 12월 20일). “Accountability of AI Under the Law: The Role of Explanation”. arXiv:1711.01134.
Fong, Ruth; Vedaldi, Andrea (2017). 〈Interpretable Explanations of Black Boxes by Meaningful Perturbation〉. 《2017 IEEE International Conference on Computer Vision (ICCV)》. 3449–3457쪽. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN978-1-5386-1032-9.
Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). “Locating and editing factual associations in GPT”. 《Advances in Neural Information Processing Systems》 35. arXiv:2202.05262.
Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (2020년 7월 30일). “Rewriting a Deep Generative Model”. 《ECCV》. arXiv:2007.15646.
Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (2022년 9월 5일). “Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks”. 《IEEE SaTML》. arXiv:2207.13243.
Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (2017년 4월 19일). “Network Dissection: Quantifying Interpretability of Deep Visual Representations”. 《CVPR》. arXiv:1704.05796.
Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). “Curve circuits”. 《Distill》 6 (1). doi:10.23915/distill.00024.006 (년 이후로 접속 불가 2024-11-01). 2022년 12월 5일에 원본 문서에서 보존된 문서. 2022년 12월 5일에 확인함.
Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2021년 5월 5일). “Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers”. 《Journal of Artificial Intelligence Research》 71. arXiv:2105.02117. doi:10.1613/jair.1.12895.
Fong, Ruth; Vedaldi, Andrea (2017). 〈Interpretable Explanations of Black Boxes by Meaningful Perturbation〉. 《2017 IEEE International Conference on Computer Vision (ICCV)》. 3449–3457쪽. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN978-1-5386-1032-9.
Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). “Curve circuits”. 《Distill》 6 (1). doi:10.23915/distill.00024.006 (년 이후로 접속 불가 2024-11-01). 2022년 12월 5일에 원본 문서에서 보존된 문서. 2022년 12월 5일에 확인함.
Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (2022년 8월 4일). “2022 Expert Survey on Progress in AI”. 《AI Impacts》. 2022년 11월 23일에 원본 문서에서 보존된 문서. 2022년 11월 23일에 확인함.
Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). “Curve circuits”. 《Distill》 6 (1). doi:10.23915/distill.00024.006 (년 이후로 접속 불가 2024-11-01). 2022년 12월 5일에 원본 문서에서 보존된 문서. 2022년 12월 5일에 확인함.