Tomar captura o foto de una página web con Node JS, PhantomJS y node-webshot

En este post explicaré cómo tomar una captura de pantalla de cualquier página web con Node.JS. Es decir, tomar un screenshot de un sitio de internet como si lo visitáramos, pero sin realmente visitarlo.

Vamos a obtener la página web como una imagen usando JavaScript del lado del servidor. Para esto vamos a usar Node JS, PhantomJS y un módulo llamado node-webshot.

Código para guardar página web como imagen usando Node JS

Código para guardar página web como imagen usando Node JS

Lo que alcanzaremos al final será guardar una página web como una imagen PNG. También veremos algunas opciones que el paquete ofrece.

Requisitos y recomendaciones

Instala Node y NPM o actualiza NPM.

Instalar librería

En caso de que todavía no tengas un proyecto iniciado, ejecuta:

npm init -y

Para instalar el paquete ejecuta:

npm install --save node-webshot

Eso instalará las dependencias y paquetes necesarios, entre ellos PhantomJS que será un ejecutable. En mi caso se ve así:

Instalar node-webshot para tomar screenshot de página web

Instalar node-webshot para tomar screenshot de página web

Ejemplo de uso de node-webshot

Requerimos el paquete con:

require("webshot")

Después de eso ya podemos tomar una captura de una página web y guardarla en el disco duro. Veamos un ejemplo en donde guardamos la página de Facebook como una imagen PNG:

La forma más básica de esto es llamar a la función webshot que toma 4 argumentos:

  1. URL de la página web o sitio
  2. Ruta del archivo en donde se escribirá la imagen
  3. Un objeto con opciones para controlar mejor la captura
  4. Una función que será llamada al finalizar, a la que probablemente se le pase un error en caso de que exista

Una cosa importante es la lista de opciones. En ella especificamos cómo será la captura. Con la opción de screenSize indicamos el tamaño de la pantalla; si quisiéramos, podríamos ver un sitio como se vería en un iPhone, en una tableta o cualquier lugar cambiando los pixeles.

Por otro lado, shotSize se refiere al tamaño de la captura que se toma. En este caso ambas opciones están en all para que tome una captura del sitio completo, es decir, como si hiciera scroll por todo el contenido.

Dos trucos que apliqué son el userAgent para mentir o indicar que somos Chrome (podríamos indicar que somos otro navegador) y la opción del encabezado del lenguaje para ver las páginas en español en caso de que se pueda.

Lo del encabezado de idioma ya lo habíamos visto con la API de DuckDukGo.

Conclusiones

Esta librería de node-webshot funciona para muchísimas páginas. La única razón de que falle sería el bloqueo de nuestra IP por parte de las páginas o porque realmente hubo un error fatal.

Personalmente la he usado con muchísimos sitios y no me ha dado problemas.

Cabe mencionar que hay otras opciones interesantes como la espera de determinado tiempo antes de tomar la captura, todo ello está en el sitio del módulo.

Lee más sobre JavaScript o Node.JS.