Cependant sur cette page retraçant l’histoire du codage UTF-8 avant 1996, il est dit : « UTF-8 encoded characters may theoretically be up to six bytes long », faisant par là référence à l’ensemble des valeurs possibles (plus de deux milliards, codées sur 31 bits au maximum) dans son édition initiale (aujourd’hui obsolète) de la norme ISO/CEI 10646, cf. section Restrictions successives.
(en) UTF-8 and Unicode FAQ : « pour des raisons de sécurité, un programme qui décode des caractères au format UTF-8 ne doit pas accepter les séquences UTF-8 qui sont plus longues que nécessaire pour coder ces caractères. Il risquerait d’abuser d’un test de sous-chaîne, qui n’inspecterait que les codages standards les plus courts. ».