van Hasselt, Hado; Guez, Arthur; Silver, David (2015). Deep reinforcement learning with double Q-learning. AAAI Conference on Artificial Intelligence: 2094—2100. Архів оригіналу(PDF) за 6 лютого 2020. Процитовано 4 березня 2020. (англ.)
François-Lavet, Vincent; Fonteneau, Raphael; Ernst, Damien (7 грудня 2015). How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies. arXiv:1512.02011 [cs.LG]. (англ.)
Strehl, Alexander L.; Li, Lihong; Wiewiora, Eric; Langford, John; Littman, Michael L. (2006). Pac model-free reinforcement learning(PDF). Proc. 22nd ICML: 881—888. Архів оригіналу(PDF) за 14 квітня 2021. Процитовано 4 березня 2020. (англ.)
Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K. (Feb 2015). Human-level control through deep reinforcement learning. Nature(англ.). 518 (7540): 529—533. doi:10.1038/nature14236. ISSN0028-0836. PMID25719670. (англ.)
nips.cc
papers.nips.cc
van Hasselt, Hado (2011). Double Q-learning. Advances in Neural Information Processing Systems. 23: 2613—2622. Архів оригіналу(PDF) за 26 березня 2020. Процитовано 4 березня 2020. (англ.)
rhul.ac.uk
cs.rhul.ac.uk
Watkins, C.J.C.H. (1989), Learning from Delayed Rewards(PDF) (Ph.D. thesis), Cambridge University, архів оригіналу(PDF) за 9 вересня 2016, процитовано 4 березня 2020(англ.)
Matiisen, Tambet (19 грудня 2015). Demystifying Deep Reinforcement Learning. neuro.cs.ut.ee(амер.). Computational Neuroscience Lab. Архів оригіналу за 7 квітня 2018. Процитовано 6 квітня 2018. (англ.)
Matiisen, Tambet (19 грудня 2015). Demystifying Deep Reinforcement Learning. neuro.cs.ut.ee(амер.). Computational Neuroscience Lab. Архів оригіналу за 7 квітня 2018. Процитовано 6 квітня 2018. (англ.)
van Hasselt, Hado (2011). Double Q-learning. Advances in Neural Information Processing Systems. 23: 2613—2622. Архів оригіналу(PDF) за 26 березня 2020. Процитовано 4 березня 2020. (англ.)
van Hasselt, Hado; Guez, Arthur; Silver, David (2015). Deep reinforcement learning with double Q-learning. AAAI Conference on Artificial Intelligence: 2094—2100. Архів оригіналу(PDF) за 6 лютого 2020. Процитовано 4 березня 2020. (англ.)
Strehl, Alexander L.; Li, Lihong; Wiewiora, Eric; Langford, John; Littman, Michael L. (2006). Pac model-free reinforcement learning(PDF). Proc. 22nd ICML: 881—888. Архів оригіналу(PDF) за 14 квітня 2021. Процитовано 4 березня 2020. (англ.)