Algoritmos Lenguaje de programación C
C – Extraer contenido de archivo HTML
En este post de programación en C te enseñaré cómo obtener el texto (ignorando etiquetas) que se encuentra dentro de las etiquetas <body>
de un archivo HTML.
Vamos a extraer lo que hay en el cuerpo de la página, pero además vamos a obtener solo el texto, ignorando todas las etiquetas que existan. Por poner un ejemplo, si la página es:
El programa en ANSI C debe extraer el contenido y además ignorar las etiquetas, produciendo la siguiente salida:
Veamos cómo resolver este ejercicio propuesto en C, ya que en otro lenguaje con soporte nativo de expresiones regulares sería fácil, pero aquí no lo es tanto.