C - Extraer contenido de archivo HTML
En este post de programación en C te enseñaré cómo obtener el texto (ignorando etiquetas) que se encuentra dentro de las etiquetas <body> de un archivo HTML. Vamos a extraer lo que hay en el cuerpo de la página, pero además vamos a obtener solo el texto, ignorando todas las etiquetas que existan. Por poner un ejemplo, si la página es: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>Mi página web - By Parzibyte</title> </head> <body> Aquí va el contenido <p> Soy un párrafo</p> Yo no estoy dentro de una etiqueta <h1> Yo soy un encabezado</h1> <strong>Ejemplo de otra etiqueta</strong> </body> </html> El programa en ANSI C debe extraer el contenido y además ignorar las etiquetas, produciendo la siguiente salida: Aquí va el contenido Soy un párrafo Yo no estoy dentro de una etiqueta Yo soy un encabezado Ejemplo de otra etiqueta Veamos cómo resolver este ejercicio propuesto en C, ya que en otro lenguaje con soporte nativo de expresiones regulares sería fácil, pero aquí no lo es tanto. ...