Te traigo un tema que me tiene completamente entusiasmado: cómo exprimir todos tus documentos, notas, manuales o archivos locales sin tener que compartirlos con nadie. Te voy a dar una visión general de cómo puedes montar un sistema de recuperación de información para que una inteligencia artificial local se convierta en tu asistente personal definitivo. Todo esto sin salir de tu propia casa, sin APIs de pago y de forma completamente privada.
¿Reentrenar o buscar? El gran dilema
Para solucionar esta tremenda limitación, el mundo de la tecnología nos ofrece dos caminos diferentes: hacer un reentrenamiento de un modelo ya existente (lo que conocemos como fine-tuning) o bien montar un sistema RAG (Retrieval-Augmented Generation), que podríamos traducir como generación aumentada por recuperación. En este episodio te desvelo por qué el fine-tuning no es la solución para el común de los mortales: requiere de tarjetas gráficas carísimas, es un proceso lento y estático, y además tus datos privados quedan incrustados dentro del propio modelo, por lo que si se lo entregas a un tercero, estarás regalando tu privacidad.
En cambio, un RAG casero es infinitamente más barato, dinámico y respeta tus datos al cien por cien. Imagina que en lugar de obligar al modelo a memorizar toda la biblioteca (que es lo que hace el fine-tuning), le pones a su lado un bibliotecario listísimo que busca la página exacta de los apuntes que necesita antes de responderte. El modelo de lenguaje lee esa página en tiempo real y te contesta basándose únicamente en hechos reales, no en invenciones.
La tubería de datos para tu cerebro artificial
A lo largo del episodio te explico con todo detalle las piezas que componen esta tubería de datos (o pipeline) que permite hacer magia con tus archivos:
La ingesta
El troceado (o chunking)
Los embeddings y vectores
La base de datos
La búsqueda híbrida
Herramientas listas para usar y errores que debes evitar
Si te da miedo el código, no te preocupes. Te hablo también de alternativas como OpenWeb UI. Y si te va la marcha del desarrollo, te cuento cómo con apenas diez líneas de Python y Streamlit puedes tener una aplicación web propia y completamente funcional.
Además, repasamos los tropiezos más habituales que cometemos al empezar en este mundillo, como usar modelos de vectorización que solo entienden inglés para procesar textos en español, no limpiar las cabeceras y pies de página de los PDFs antes de procesarlos, o la importancia crucial de reindexar de forma automática para que tus nuevos documentos estén disponibles al instante.
Capítulos del episodio
00:00:00 Introducción y de qué va este episodio
00:01:54 ¿A qué problema nos enfrentamos con los LLM?
00:05:08 Fine-tuning vs. RAG: ¿Cuál es mejor para tus datos?
00:08:29 El Pipeline del RAG: De la ingesta a la respuesta
00:10:45 ¿Qué es un "embedding" y qué modelos usar con Ollama?
00:12:02 El arte de trocear el texto (Chunking)
00:13:40 Búsqueda híbrida: Semántica frente a coincidencia exacta
00:14:50 Re-ranking: Ordenando los resultados por relevancia
00:15:53 El Stack: Ollama, PostgreSQL, pgvector y Podman
00:17:25 Alternativas vectoriales: ParadeDB, ChromaDB y Qdrant
00:18:36 Manos a la obra con Python y Streamlit
00:20:53 OpenWeb UI: La alternativa con RAG integrado y sin código
00:21:42 Cómo saber si funciona: El método de las 20 preguntas
00:22:51 Errores comunes que debes evitar al montar tu RAG
00:23:55 Lo que viene: GraphRAG y RAG agéntico
00:24:44 Resumen final y despedida
Más información y enlaces en las notas del episodio
🌐 Aquí lo puedes encontrar todo 👉 https://atareao.es
✈️ Telegram (el grupo) 👉 https://t.me/atareao_con_linux
✈️ Telegram (el canal) 👉 https://t.me/canal_atareao
🦣 Mastodon 👉 https://mastodon.social/@atareao
🐦 Twitter 👉 https://twitter.com/atareao
🐙 GitHub 👉 https://github.com/atareao