Introducción
En muchas ocasiones en PHP necesitaremos leer u obtener la longitud de una cadena o string. PHP provee dos funciones: strlen y mb_strlen.
Dichas funciones funcionan casi igual, pero una ayuda más que la otra. Sigamos leyendo para entender la dferencia.
¿Qué es la longitud de una cadena?
Es un número entero que representa la cantidad de caracteres en una cadena. Por ejemplo, la palabra “hola” tiene una longitud de 4. En cambio, “hola mundo” tiene una longitud de 10, ya que los espacios cuentan.
Para finalizar con los ejemplos, la palabra “ñandú” tiene una longitud de 5.
Strlen
Esta función recibe una cadena y devuelve un entero indicando la longitud (los bytes) de una cadena. Veamos este ejemplo:
<?php echo strlen("hola mundo"); #Salida => 10 ?>
Todo bien hasta ahí, pero sabemos que los hispanohablantes usamos a menudo acentos o tildes en las vocales. Por ejemplo, para escribir el nombre “José”.
Nosotros, como seres humanos, sabemos que dicha palabra tiene una longitud de 4. Pero veamos qué opina PHP:
<?php echo strlen("José"); #Salida => 5 ?>
La salida es 5. Ya que strlen cuenta los bytes de la cadena, y me parece que la letra é ocupa dos bytes para (por lo de unicode y esas cosas) ser representada.
Entonces, “Jos” ocupa 3 bytes, y “é” ocupa 2 bytes, por lo que mide 5 bytes.
Todo esto puede traer problemas tanto de seguridad como de implementación. Y eso que no hablamos de cadenas árabes o emojis.
Aquí la documentación oficial de dicha función.
mb_strlen
Esta maravillosa función sí devuelve el número de caracteres, no los bytes. Veamos el ejemplo con la palabra hola:
<?php echo mb_strlen("hola"); # Salida => 4 ?>
Hasta ahí todo bien, y si intento con “José”…
<?php echo mb_strlen("José"); // Salida => 4 ?>
Todo correcto, ahora sí cuenta los caracteres, no los bytes.
Por cierto, mb_strlen acepta un segundo argumento para la codificación. Recomiendo leer la documentación oficial para profundizar en el tema.
Comparaciones
Vamos a comparar la salida de ambas funciones con las mismas cadenas…
<?php $cadenas = ["hola", "María", "Me gusta PHP", "Soy un emoji 😀"]; foreach ($cadenas as $cadena) { echo "Comparando '$cadena'. Con strlen() => " . strlen($cadena) . " y con mb_strlen() => " . mb_strlen($cadena) . "\n"; }
La salida es esta:
Como vemos, mb_strlen acierta siempre, pues cuenta caracteres, no bytes.
Entonces, ¿cuál usar?
Recomiendo mb_strlen ya que permitirá trabajar con diferentes idiomas y con caracteres multibyte. De esta manera nuestras apps serán más robustas y seguras a la hora de limitar o comparar cadenas.
Aunque, si realmente necesitamos los bytes ocupados por una cadena, podemos usar strlen normalmente.
Conclusión
En resumidas cuentas, strlen cuenta bytes y mb_strlen cuenta caracteres.
Pingback: isset vs empty en PHP: diferencias y explicación - Parzibyte's blog