Generador de Glosarios Contextuales

FastAPI Python Redis Groq Llama 3.3 70B PyMuPDF python-docx SQLite asyncio TBX (ISO 30042)
Generador de Glosarios Contextuales

Generador de Glosarios Contextuales: terminología consistente para traducción profesional

Cuando un traductor recibe un manual técnico o un contrato de 80 páginas, el primer trabajo invisible es construir el glosario: identificar los tecnicismos, siglas y expresiones que deben traducirse igual en todo el documento. Hacerlo a mano lleva horas. Esta herramienta lo automatiza con IA, conservando el contexto en el que aparece cada término.

Arquitectura asíncrona desacoplada

Los documentos pesados no se procesan en la petición HTTP. Al subir el archivo, FastAPI lo almacena, crea una tarea PENDING en SQLite e inyecta su ID en una cola Redis. Un consumidor —que corre como tarea asíncrona dentro del propio servicio— recoge la tarea, la procesa por fases y actualiza el progreso, mientras el frontend hace polling en tiempo real. Así se aceptan archivos grandes sin bloquear el servidor ni saturar los rate limits del LLM.

Pipeline de IA: Map → Reduce → Reflect

No es un único prompt, sino un pipeline en tres fases:

  • Map: el texto se divide en fragmentos de ~1.800 palabras y cada uno se envía a Groq (Llama 3.3 70B) con un prompt especializado en localización (L10n) que devuelve JSON estricto.
  • Reduce: se deduplican los términos que aparecen en páginas distintas.
  • Reflect: un segundo paso agéntico revisa el glosario consolidado, elimina falsos positivos, fusiona variantes del mismo concepto y unifica las traducciones inconsistentes.

Export en formatos de industria

El glosario se descarga en CSV (universal, para Excel/Sheets) y en TBX (TermBase eXchange, ISO 30042), el estándar de intercambio de bases terminológicas que importan directamente SDL Trados, memoQ y otras herramientas CAT.

Nota: la extracción la realiza un LLM; el resultado es un punto de partida de alta calidad que el profesional debe revisar antes de usar en producción.

Resultados

PDF + DOCX
Formatos de entrada
(con texto seleccionable)
CSV + TBX
Export profesional
ISO 30042 · Trados / memoQ
Asíncrono
Cola Redis + polling
respeta rate limits
3 fases
Map · Reduce · Reflect
con agente de reflexión

Comparativa de mercado

Solución Coste mensual Modelo de cobro Datos propios Personalización
Generador de Glosarios Contextuales Self-hosted
Glosario manual Horas por documento
Extractor terminológico CAT Sin contexto ni traducción

Precios de referencia públicos. Pueden variar según plan y negociación.

Funcionalidades implementadas

  • ⚙️ Procesamiento asíncrono. Sube documentos pesados sin bloquear el navegador: cola Redis, worker in-process y polling de progreso en tiempo real.
  • 🧠 Agente de reflexión. Un segundo paso LLM poda falsos positivos y fusiona variantes del mismo término aparecidas en páginas distintas.
  • 🌐 5 idiomas destino. Inglés → español, francés, alemán, italiano o portugués, con la traducción más aceptada en la industria.
  • 📤 Export estándar L10n. CSV universal y TBX (ISO 30042) importable directamente en SDL Trados, memoQ y herramientas CAT.
Try Live Demo View Code
🤖 Asistente Virtual