François-Lavet, Vincent; Fonteneau, Raphael (2015-12-07). „How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies”. arXiv:1512.02011 [cs.LG].
Sutton, Richard S.; Barto, Andrew G. „2.7 Optimistic Initial Values”. Reinforcement Learning: An Introduction. Архивирано из оригинала 2013-09-08. г. Приступљено 2013-07-18.
Matiisen, Tambet (19. 12. 2015). „Demystifying Deep Reinforcement Learning”. neuro.cs.ut.ee (на језику: енглески). Computational Neuroscience Lab. Архивирано из оригинала 07. 04. 2018. г. Приступљено 2018-04-06.CS1 одржавање: Формат датума (веза)
Sutton, Richard S.; Barto, Andrew G. „2.7 Optimistic Initial Values”. Reinforcement Learning: An Introduction. Архивирано из оригинала 2013-09-08. г. Приступљено 2013-07-18.