Glosario esencial de video generado con IA
Ideal para: marketers de producto, equipos operativos, agencias e influencers que necesitan un glosario rápido mientras guionizan contenido con IA.
A
Audio Inpainting
Uso de IA para rellenar huecos, eliminar sonidos no deseados o reparar secciones dañadas de grabaciones de audio manteniendo un flujo natural.
Avatar de IA
Presentador digital generado por IA que interpreta tu guion y puede reemplazar a actores humanos.
Animación labial (Lip-sync)
Tecnología que alinea los movimientos de la boca con el audio sintetizado para que el avatar se vea natural.
Aspect ratio
Relación entre ancho y alto del video (16:9 horizontal, 9:16 vertical, etc.).
B
Borrado de fondo
Herramienta que elimina automáticamente el fondo real para colocar escenarios generados.
Generación por lotes
Crear varios videos al mismo tiempo a partir de plantillas o scripts diferentes.
Brand kit
Paquete de logos, tipografías y colores que mantiene la identidad visual en cada video.
C
CFG Scale (Classifier-Free Guidance)
Parámetro que controla cuán fielmente la IA sigue tu prompt. Valores altos producen resultados más fieles; valores bajos permiten más libertad creativa.
Checkpoint
Estado guardado de los pesos entrenados de un modelo de IA. Diferentes checkpoints pueden producir distintos estilos visuales o capacidades.
Clonación de voz
Proceso que replica tu timbre y ritmo tras grabar un muestreo guiado.
ControlNet
Técnica que proporciona control preciso sobre la generación de imágenes y video con IA usando imágenes de referencia para poses, bordes, mapas de profundidad u otras guías visuales.
Avatar personalizado
Modelo entrenado con tu imagen o la de un vocero para tener una versión digital propia.
D
Deepfake
Video manipulado que suplanta la identidad de una persona real; puede ser ético o malicioso según el uso.
Modelo de difusión (Diffusion Model)
La arquitectura de IA que impulsa generadores de video modernos como Sora, Runway y Kling. Funciona aprendiendo a eliminar ruido de estática aleatoria hasta que emerge una imagen o video coherente.
Humano digital
Otro nombre para un avatar hiperrealista que luce y actúa como una persona.
Doblaje
Reemplazar el audio original por otro idioma manteniendo sincronía de labios y gestos.
E
Casos extremos
Situaciones poco comunes (acentos raros, nombres técnicos) donde la IA puede fallar.
Formato de exportación
Tipo de archivo final (MP4, MOV, WebM) que eliges al descargar el video.
F
Fine-tuning (Ajuste fino)
El proceso de tomar un modelo de IA preentrenado y entrenarlo más con datos específicos para especializarlo en una tarea, estilo o tema particular.
Reemplazo de rostro
Tecnología que cambia la cara de un actor por la de otra persona dentro del video.
Fotogramas por segundo (FPS)
Cantidad de imágenes mostradas cada segundo; 24‑30 fps es el estándar.
Frontend / Backend
Frontend es lo que ve el usuario; backend es el motor de IA que procesa voz, video y guion.
G
IA generativa
Modelos capaces de crear contenido nuevo (imágenes, voz, video) en lugar de solo analizar datos.
Control de gestos
Capacidad de definir movimientos de manos o cuerpo para que el avatar comunique mejor.
Pantalla verde virtual
Fondo liso que permite exportar al avatar con transparencia para componer sobre otra escena.
H
Alucinación (Hallucination)
Cuando la IA genera contenido falso, sin sentido o factualmente incorrecto. En video, puede aparecer como manos distorsionadas, física imposible o rostros que se deforman de manera antinatural.
Hiperrealista
Contenido generado que resulta casi indistinguible de una grabación real.
HeyGen
Plataforma popular de video con avatares y clonación de voz lista para empresas.
I
Imagen a video (img2vid)
Generación de contenido de video a partir de una sola imagen estática. La IA anima la imagen estática, añadiendo movimiento, movimientos de cámara o animación de personajes.
Inferencia (Inference)
El proceso de ejecutar un modelo de IA entrenado para generar resultados. Cuando creas un video con una herramienta de IA, el proceso de generación se llama inferencia.
Inpainting
Rellenar o modificar partes específicas de un cuadro de video usando IA.
Avatar instantáneo
Colección de avatares preconfigurados que puedes usar sin entrenamiento adicional.
J
Corte en J
Recurso de edición donde el audio de la siguiente escena empieza antes que la imagen para suavizar la transición.
Reducción de jitter
Filtros que estabilizan micro movimientos o ruido generados por la IA en cada cuadro.
K
Fotograma clave (Keyframe)
Marcador que indica cambios en animación, posición de cámara o efectos dentro del editor.
Fecha de corte del conocimiento
Último día con el que se entrenó un modelo generativo; útil para evaluar datos actualizados.
L
Latencia
Tiempo que pasa desde que lanzas la generación hasta que recibes el video final.
Sincronización labial
Ajuste fino para que la boca del avatar coincida exactamente con el audio.
LLM (Large Language Model)
Modelo lingüístico que ayuda a redactar guiones e instrucciones para los videos.
LoRA (Low-Rank Adaptation)
Una técnica de ajuste fino ligera que entrena pequeños módulos adaptadores en lugar del modelo de IA completo. Popular para añadir estilos personalizados, personajes o conceptos a generadores de video.
M
Captura de movimiento
Registro de movimientos reales para transferirlos al avatar y lograr mayor naturalidad.
Soporte multilenguaje
Capacidad de generar videos con pronunciación nativa en múltiples idiomas.
MP4
Formato de video más compatible con redes sociales, LMS y plataformas publicitarias.
Multimodal
Modelos de IA que pueden entender y generar múltiples tipos de contenido—texto, imágenes, audio y video—dentro de un solo sistema. Ejemplos incluyen GPT-4V y Gemini.
N
Negative Prompt (Prompt negativo)
Instrucciones que le dicen a la IA qué NO incluir en el contenido generado. Se usa para evitar elementos no deseados como imágenes borrosas, extremidades extra o estilos específicos.
Procesamiento de lenguaje natural (PLN)
Tecnología que permite a la IA entender y generar texto para guiones o prompts.
Red neuronal
Arquitectura matemática que impulsa la clonación de voz y la animación de avatares.
O
Overdub
Reemplazar un diálogo ya grabado con voz generada manteniendo el ritmo original.
Outpainting
Expandir una escena más allá del encuadre original, completando el entorno con IA.
P
Fotorrealismo
Nivel de detalle que hace que un render luzca como una fotografía o video real.
Tono (Pitch)
Altura de la voz; se ajusta para hacerla más grave, aguda o juvenil.
Preajuste (Preset)
Configuración guardada que acelera la producción (colores, cámara, música, etc.).
Q
Umbral de calidad
Métrica mínima (resolución, bitrate o confianza de IA) que debes alcanzar antes de finalizar el render.
Cuantización
Técnica para comprimir modelos y correrlos en hardware ligero sacrificando un poco de detalle.
R
Renderizado
Proceso en el que la plataforma genera el archivo final a partir del guion y la configuración.
Resolución
Cantidad de pixeles del video (1080p, 4K, etc.). Más resolución = mayor nitidez y peso.
S
Guion
Texto que el avatar narrará en cámara.
Separación de pistas (Stem Separation)
Tecnología de IA que divide una pista de audio mezclada en componentes individuales (stems) como voces, batería, bajo y otros instrumentos. Se usa para remixes, karaoke y creación de contenido.
Medios sintéticos
Contenido (video, audio, imagen) creado o alterado por inteligencia artificial.
Synthesia
Proveedor destacado de video con avatares para empresas y equipos de formación.
T
Consistencia temporal (Temporal Consistency)
Qué tan suave y coherentemente un video generado por IA mantiene los elementos visuales entre frames. Una pobre consistencia temporal causa parpadeo, objetos que se transforman o personajes que cambian de apariencia a mitad del video.
Texto a música (Text-to-Music)
Sistemas de IA que generan composiciones musicales completas a partir de descripciones de texto. Plataformas como Suno y Udio pueden crear canciones con voces, instrumentos y producción desde prompts simples.
Texto a voz (TTS)
Conversión de texto en audio con voces neuronales naturales.
Texto a video
Generación de escenas completas a partir de descripciones o guiones.
Plantilla
Diseño prearmado de escenas, fondos y llamados a la acción que acelera la producción.
Miniatura
Imagen previa que se muestra antes de reproducir el video.
U
Upscaling
Proceso de aumentar resolución y nitidez usando IA para mejorar videos existentes.
V
Video a video (vid2vid)
Transformar material de video existente usando IA para cambiar su estilo, apariencia o contenido mientras se preserva el movimiento y estructura originales.
Clonación de voz
Crear una copia sintética de la voz de alguien para narrar cualquier guion.
Modulación de voz
Ajustar velocidad, tono y emoción para adaptar la locución al contexto.
VTT / SRT
Formatos de subtítulos utilizados para añadir captioning accesible.
W
Marca de agua
Texto o logo superpuesto en videos de prueba o planes gratuitos.
Flujo de trabajo
Secuencia completa desde la idea hasta la publicación del video.
X
XR (Realidad extendida)
Paraguas que incluye realidad virtual, aumentada y mixta; muchos avatares se usan en experiencias XR.
Subtítulos XML
Archivos en formato TTML/DFXP usados para TV o plataformas que requieren metadatos adicionales.
Y
Espacio de color YUV
Modelo de color usado por la mayoría de servicios de streaming; conviene conocerlo para exportar correctamente.
YouTube Shorts
Formato vertical de menos de 60 segundos que muchas herramientas de IA ya optimizan por defecto.
Z
Generación zero-shot
Crear un video convincente sin ejemplos previos del sujeto, solo con texto.
Importación de grabaciones de Zoom
Subir una reunión a la plataforma para resumirla, traducirla o convertirla en clips editados.
Mantén este glosario a la mano cada vez que coordines proyectos con avatares o audio sintético; alinear el lenguaje acelera cualquier reunión técnica.