Extractor Web

Tabla de Contenidos

¿Qué es el nodo Extractor Web y para qué sirve?
Configuraciones
Tips de uso

El nodo Extractor Web es perfecto para obtener información de una o varias páginas, y luego reutilizarla en distintas partes de tu flujo. A continuación, exploraremos sus funciones y configuraciones para que puedas aprovecharlo al máximo dentro de AI Content Labs.

¿Qué es el nodo Extractor Web y para qué sirve?

El Extractor Web (o Web Scraper en la interfaz) te permite recopilar contenido de uno o varios sitios web para procesarlo mediante otros nodos. Por ejemplo, puedes extraer texto de artículos, productos de una tienda en línea, o incluso tomar una captura de pantalla para que un nodo Prompt con un modelo de visión lo analice más adelante.

Sus principales ventajas son:

Flexibilidad en las fuentes: puedes usar el scraping interno o un servicio externo especializado.
Facilidad de integración: se conecta con otros nodos, como nodo Divisor de texto para dividir el texto en partes y procesarlas de forma independiente.
Personalización: define qué datos recoger (contenido completo, encabezados, etc.) e incluye o excluye imágenes, enlaces y más.

Configuraciones

Para comenzar a usar el Extractor Web, debes seleccionar la fuente de contenido y establecer las opciones de cómo se obtendrán los datos. Estas son las configuraciones principales:

1. Fuente (Source)

Las fuentes disponibles pueden variar según el plan y los proveedores activos en tu cuenta. Por ejemplo:

Url Content AI Content Labs
Url Content Frase
Url Content ScrapeOwl
Screenshot ScrapeOwl
Url Content Scrape.do
Screenshot Scrape.do

Elige la opción que mejor se adapte a la protección o complejidad del sitio que vayas a extraer. Por ejemplo, “Screenshot” es útil cuando deseas realizar un análisis visual posterior.

2. Variables y URLs

En el campo URLs, puedes agregar una o varias direcciones para extraer información. Incluso es posible usar resultados de nodos anteriores para generar dinámicamente la lista de sitios.

3. Opciones de Scraping

Hay varias funciones para ajustar cómo se obtendrá la información:

Retry: si el proveedor no logra extraer la información, intentará con otro.
Premium Proxies: para webs con protección avanzada, activa esta opción y usa un servicio de proxy especializado.
Render Javascript: permite renderizar el contenido si la página depende de scripts.
CSS Elements: extrae solo ciertas secciones del sitio, por ejemplo un div específico con el contenido que te interesa.

4. Datos a Devolver

Decide qué información se devolverá:

Raw Content: incluye todo el HTML de la página.
Headers: se limita a tags H1, H2, etc., útiles para identificar la estructura de un artículo.
Exclude Images o Exclude Links: eliminación selectiva para centrarse en el texto.
Word Count: calcula el número total de palabras, ideal para medir la extensión del contenido.

5. Ajustes de Salida

El Extractor Web incluye las mismas opciones de salida que otros nodos, como ocultar su resultado o no enviarlo a un webhook. Sin embargo, aquí destaca Separator Pattern, que permite separar el contenido de múltiples URLs con un patrón específico. Así, si obtienes resultados de varias páginas, puedes separarlos fácilmente con un nodo Divisor de texto posteriormente.

Tips de uso

Combinar con nodo Divisor de texto: si extraes contenido de varios enlaces, configura un patrón en “Separator Pattern” y luego usa un nodo “Text Splitter” para dividir el resultado en secciones más manejables.
Incluir un nodo Prompt: tras el scraping, pasa la información a un “Prompt Node” para que un modelo de lenguaje realice un resumen, una traducción o un análisis del texto extraído.
Capturas de pantalla para Inteligencia Visual: si necesitas analizar el aspecto de la web o elementos gráficos, selecciona un proveedor de “Screenshot” y luego conéctalo a un nodo Prompt con un modelo de visión para su procesamiento.
Optimizar la extracción: utiliza los selectores CSS y Render Javascript solo si es necesario. Esto ahorrará tiempo y recursos en tu flujo.

En definitiva, el nodo Extractor Web (Scraper) es tu punto de partida para trabajar con contenido externo, ofreciéndote un amplio margen de personalización. Al combinarlo con otros nodos, tendrás un flujo automatizado y sólido para recopilar, limpiar y procesar información proveniente de la web.