2.3 Inteligencia artificial generativa

Un cambio de paradigma

La inteligencia artificial generativa (IAG) representa un giro fundamental: las máquinas pasan de analizar datos existentes a crear contenido nuevo. A diferencia de la IA clasificadora tradicional, que asigna etiquetas a los datos de entrada, la IA generativa puede producir texto, imágenes, audio, código y vídeo que no existían previamente.

Fundamentos

Tres principios de la IA generativa

Aprendizaje continuo

Los modelos generativos aprenden patrones estadísticos de grandes volúmenes de datos durante el entrenamiento, construyendo representaciones internas cada vez más refinadas del lenguaje, la visión o el sonido.

Transferencia de conocimiento

Un modelo preentrenado en grandes cantidades de datos puede adaptarse a tareas específicas mediante ajuste fino (fine-tuning), reduciendo drásticamente el tiempo y los datos necesarios para cada nueva aplicación.

Creatividad y autonomía

La IAG genera resultados que pueden ser originales e impredecibles. No repite datos del entrenamiento literalmente, sino que combina patrones aprendidos de formas nuevas, produciendo contenido que puede ser evaluado, modificado y aplicado.

2014

Redes generativas antagónicas (GAN)

Propuestas por Ian Goodfellow et al. en 2014, las GAN introdujeron una idea elegante: dos redes neuronales que compiten entre sí. El generador intenta crear datos falsos indistinguibles de los reales, mientras que el discriminador intenta detectar cuáles son falsos. Esta competencia recíproca mejora progresivamente la calidad de ambas redes.

Generador

Recibe ruido aleatorio como entrada y produce datos sintéticos (imágenes, audio, etc.). Su objetivo es engañar al discriminador produciendo resultados cada vez más realistas.

Discriminador

Evalúa si cada muestra es real (del dataset de entrenamiento) o falsa (generada). A medida que mejora, fuerza al generador a producir resultados más convincentes.

Aplicaciones: síntesis de rostros fotorrealistas (StyleGAN), generación de arte (GauGAN), aumento de datos para entrenamiento, superresolución de imágenes y diseño de fármacos.

2017 – Presente

La arquitectura transformer y los modelos de lenguaje

En 2017, investigadores de Google publicaron el artículo "Attention Is All You Need" (Vaswani et al.), introduciendo la arquitectura transformer. Su innovación clave, el mecanismo de atención, permite que el modelo considere simultáneamente todas las palabras de una secuencia, capturando relaciones a larga distancia de forma mucho más eficiente que las redes recurrentes anteriores.

De BERT a GPT

BERT (Google, 2018) introdujo la comprensión bidireccional del contexto. La familia GPT (OpenAI) adoptó un enfoque autoregresivo, prediciendo la siguiente palabra. GPT-3 (2020, 175.000M de parámetros) demostró capacidades emergentes que sorprendieron incluso a sus creadores.

Modelos multimodales

Los modelos actuales (GPT-4, Gemini, Claude) no se limitan al texto: pueden procesar y generar contenido en múltiples modalidades, incluyendo imágenes, audio y código, ampliando enormemente su campo de aplicación.

Implicaciones para la educación: Los modelos de lenguaje pueden funcionar como tutores personalizados, asistentes de escritura, generadores de materiales didácticos y herramientas de evaluación formativa, aunque plantean desafíos serios en torno a la integridad académica y la dependencia tecnológica.

← 2.2 Generaciones 2.4 Impacto y futuro →