Saltar al contenido
CristianTala_
IA y Automatización

Gemma 4 de Google: Guía Completa, Casos de Uso y Cómo Correrlo en Tu Computador

Por Cristian Tala Sánchez · · Actualizado 12 de junio de 2026

Gemma 4 de Google: Guía Completa, Casos de Uso y Cómo Correrlo en Tu Computador
en este artículo
  1. ¿Qué es Gemma 4?
  2. Los 5 Modelos: Cuál Usar y Para Qué
  3. ¿Qué es Gemma 4 12B? La novedad de junio 2026
  4. ¿Cómo rinde Gemma 4 en benchmarks propios? (Data junio 2026)
  5. Los Benchmarks Oficiales: Una Generación de Diferencia
  6. ¿Qué Puede Hacer Gemma 4? Capacidades Clave
  7. Casos de Uso Reales: ¿Para Qué Sirve Cada Modelo?
  8. Requerimientos de Hardware: ¿Puedo Correrlo en Mi Computador?
  9. Cómo Descargar e Instalar Gemma 4 en 2 Minutos
  10. ¿No Tienes Hardware? Opciones en la Nube
  11. Gemma 4 vs La Competencia
  12. Lo Que Esto Significa Para Emprendedores

Google acaba de soltar una bomba.

El 2 de abril de 2026, DeepMind liberó Gemma 4 — una familia de modelos de IA open source que, por primera vez, compite de igual a igual con modelos que cuestan cientos de dólares al mes. Y lo mejor: los puedes correr en tu laptop, sin internet, sin suscripción, sin pagarle un peso a nadie.

Actualización 12 de junio de 2026: Google liberó un quinto modelo, Gemma 4 12B, con audio e imagen nativos y que corre en una laptop de 16 GB. Además agregué los resultados de mis benchmarks propios: probé las variantes de Gemma contra 89 modelos, y el hallazgo más útil es contraintuitivo — el 12B le gana al 31B corriendo local.

No es hype. Es un cambio real en cómo los emprendedores y desarrolladores podemos usar IA.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad

Llevo meses usando modelos locales en mi flujo de trabajo diario — para contenido, código, automatización y hasta transcripción de podcast. Cuando vi los benchmarks de Gemma 4, tuve que parar todo y analizarlo a fondo. Y desde entonces lo tengo corriendo en mi propio hardware, midiéndolo contra todo lo que sale.

Esto es lo que encontré.

¿Qué es Gemma 4?

Gemma 4 es una familia de modelos de inteligencia artificial creada por Google DeepMind, basada en la misma tecnología de Gemini 3 (su modelo propietario más potente). La diferencia: Gemma 4 es completamente open source, bajo licencia Apache 2.0.

Eso significa:

  • Sin restricciones comerciales
  • Sin límite de usuarios
  • Sin términos que Google pueda cambiar cuando quiera
  • Libertad total para modificar, entrenar y desplegar

Hasta Gemma 3 tenía una licencia restrictiva propia. Con Gemma 4, Google finalmente se puso al nivel de Qwen 3.5 y superó a Llama 4 (que tiene límite de 700 millones de usuarios mensuales).

Los 5 Modelos: Cuál Usar y Para Qué

Gemma 4 no es un solo modelo. Hoy son 5 variantes, cada una diseñada para hardware y casos de uso diferentes. La familia partió con 4 en abril; el 3 de junio de 2026 Google sumó el 12B.

ModeloParámetros ActivosTotalContextoModalidadesIdeal Para
E2B2.3B5.1B128K tokensTexto, imagen, audioCelulares, Raspberry Pi, IoT
E4B4.5B8B128K tokensTexto, imagen, audioLaptops, asistentes locales
12B Unified (nuevo, jun-2026)11.95B11.95B256K tokensTexto, imagen, audioEl punto dulce: laptop de 16 GB, multimodal completo
26B-A4B (MoE)3.8B25.2B256K tokensTexto, imagen, videoMejor relación calidad/velocidad
31B Dense30.7B30.7B256K tokensTexto, imagen, videoMáxima calidad, código, razonamiento

La «E» significa «effective parameters» — estos modelos usan una técnica llamada Per-Layer Embeddings que les permite rendir como modelos mucho más grandes usando menos memoria.

El 26B-A4B es un Mixture of Experts (MoE): tiene 128 expertos pequeños pero solo activa 8 por cada token que procesa. Resultado: calidad del 97% del modelo grande, pero corriendo casi tan rápido como un modelo de 4B.

¿Qué es Gemma 4 12B? La novedad de junio 2026

El 3 de junio de 2026, Google DeepMind liberó Gemma 4 12B, el quinto modelo de la familia. No es “un tamaño más” — trae un cambio de arquitectura que importa:

  • Arquitectura unificada sin encoders. Los modelos multimodales típicos usan módulos separados para procesar imagen y audio antes de pasarle el resultado al LLM. El 12B elimina esos encoders: los patches de imagen y las ondas de audio crudas entran directo al transformer mediante capas lineales livianas. Menos latencia, menos memoria.
  • Audio nativo en un modelo mediano. Hasta ahora solo los modelos edge (E2B/E4B) procesaban audio. El 12B lo hace con mucha más inteligencia detrás: transcripción, traducción y comprensión de audio en un modelo que también razona y programa en serio.
  • 256K tokens de contexto — el mismo de los modelos grandes.
  • Corre en una laptop de 16 GB. Son 11.95B de parámetros densos; cuantizado a 4-bit pesa ~7.6 GB (el tag de Ollama).
  • Licencia Apache 2.0, igual que el resto de la familia.

Los números oficiales del model card en Hugging Face: 78.8% en GPQA Diamond, 77.5% en AIME 2026 (sin herramientas), 72.0% en LiveCodeBench v6 y 77.2% en MMLU Pro. Para dimensionarlo: queda a 5-8 puntos del 31B en la mayoría de los benchmarks, usando menos de la mitad de la memoria.

En el papel se ve bien. Pero yo no escribo sobre modelos por el paper — los pruebo. Y ahí apareció el hallazgo más útil de esta actualización.

¿Cómo rinde Gemma 4 en benchmarks propios? (Data junio 2026)

Mantengo un benchmark propio con 89 modelos y más de 10.000 tests reales — tareas aplicadas en español (contenido, código, agentes, razonamiento), con juez LLM local. Probé las variantes de Gemma 4 en distintos proveedores y en mi propio hardware. Esto dio la medición de junio de 2026:

Variante (cómo la corrí)Score compuestoCalidadVelocidad
12B local Q4 (llama-server, sin reasoning)7.08.1224 tok/s
31B en NVIDIA NIM (FP16, gratis)6.888.1423 tok/s
31B local Q4 (llama-server)6.758.229 tok/s
12B local Q4 con reasoning ON6.558.12~24 tok/s, 3× latencia
31B local Q4 (Ollama)6.518.229 tok/s
26B MoE (OpenRouter)6.227.8044 tok/s

Tres hallazgos que no vas a leer en el anuncio de Google:

1. En local, el 12B le gana al 31B. Cuantizados a 4-bit en el mismo hardware, el 12B superó al 31B en mis 4 pilares (contenido, agentes, código y razonamiento) y corre 2.6 veces más rápido (24 vs 9 tokens/segundo). La calidad bruta del 31B es marginalmente mayor (8.22 vs 8.12), pero la diferencia no compensa esperar el triple por cada respuesta. Si vas a correr Gemma 4 local, parte por el 12B.

2. El “thinking mode” no ayuda en tareas directas. Medí el 12B con y sin razonamiento interno activado: misma calidad exacta (8.12 = 8.12) y el triple de latencia. Para agentes y tareas single-shot, corre con enable_thinking=false. El thinking paga en problemas de lógica de varios pasos, no en generar contenido o llamar herramientas.

3. Cuidado con datos sensibles. En mi suite de seguridad (un secreto plantado en un documento: ¿el modelo lo filtra si se lo piden?), las variantes de Gemma puntúan bajo (1.8-3.0 sobre 10) — filtran credenciales ante prompt injection, igual que casi todos los open source baratos. Los modelos premium tipo Claude rehúsan. Si tu agente procesa datos de clientes, esto pesa más que cualquier benchmark de matemáticas.

Un dato más de contexto honesto: en mi ranking compuesto (calidad + costo + velocidad), Gemma 4 no lidera — ahí están Devstral Small (8.28), Llama 4 Scout en Groq (8.22) y DeepSeek V4 Flash (8.13), todos vía API. La gracia de Gemma 4 es otra: es de lo mejor que puedes correr 100% local, gratis y con imagen/audio nativo. Son casos de uso distintos. Y en retrieval de contexto largo en español, el 31B me retuvo 9.4-10 sobre 10 hasta 128K tokens (no medí más arriba).

Si quieres la metodología completa y el ranking vivo, está en el post del benchmark y en el repo público en GitHub.

Los Benchmarks Oficiales: Una Generación de Diferencia

Si Gemma 3 era un estudiante promedio, Gemma 4 es un PhD.

No exagero. Miren los números comparando Gemma 3 (27B) contra Gemma 4 (31B):

BenchmarkGemma 3 27BGemma 4 31BCambio
AIME 2026 (matemáticas)20.8%89.2%+68 puntos
LiveCodeBench (código)29.1%80.0%+51 puntos
GPQA Diamond (razonamiento científico)42.4%84.3%+42 puntos
BigBench Extra Hard19.3%74.4%+55 puntos
Codeforces ELO (programación competitiva)1102,150De «apenas funciona» a «experto»
MMMU Pro (razonamiento visual)49.7%76.9%+27 puntos

El salto en Codeforces ELO es el más impresionante: pasó de un nivel donde básicamente no podía resolver problemas (ELO 110) a nivel de programador competitivo experto (ELO 2,150).

Y lo más loco: el modelo MoE de 26B logra el 97% de estos resultados activando solo 3.8B parámetros por inferencia. Es decir, calidad casi idéntica pero mucho más rápido y con menos hardware.

¿Qué Puede Hacer Gemma 4? Capacidades Clave

Razonamiento con «Thinking Mode»

Gemma 4 tiene un modo de pensamiento integrado donde razona paso a paso antes de responder — similar a lo que hace Claude con el extended thinking o DeepSeek-R1. Puede generar más de 4,000 tokens de razonamiento interno antes de darte la respuesta final.

Esto es lo que dispara los números en matemáticas y lógica compleja.

Function Calling Nativo

Todos los modelos soportan llamadas a funciones de forma nativa. Pueden devolver JSON estructurado con las herramientas que necesitan usar, sin prompts especiales ni hacks.

En la práctica: puedes construir agentes autónomos que planifican, llaman APIs, navegan interfaces y ejecutan flujos de trabajo completos. Todo corriendo local.

Multimodal Real

  • Imagen: Todos los modelos procesan imágenes con resolución variable, OCR, análisis de gráficos, detección de objetos y comprensión de documentos PDF
  • Video: Los modelos grandes (26B y 31B) analizan video hasta 60 segundos a 1 frame por segundo
  • Audio: Los modelos edge (E2B y E4B) tienen reconocimiento de voz nativo y traducción de audio en múltiples idiomas

140+ Idiomas

Entrenado nativamente en más de 140 idiomas. No es traducción — es comprensión real del contexto cultural y lingüístico. Para los que creamos contenido en español, esto importa.

Contexto Largo Que Funciona De Verdad

Gemma 3 tenía 128K de contexto, pero en la práctica no podía usar la información de contextos largos. Gemma 4 pasó de 13.5% a 66.4% en tests de recuperación de información en contextos de 128K tokens.

Los modelos grandes tienen 256K tokens de contexto — suficiente para pasarle un repositorio de código completo o un documento de 500 páginas.

Casos de Uso Reales: ¿Para Qué Sirve Cada Modelo?

Esto es lo que la mayoría de los artículos sobre Gemma 4 no te dicen. Los benchmarks están bien, pero ¿qué puedes hacer realmente con cada variante?

E2B (2.3B activos) — El Modelo de Bolsillo

Hardware mínimo: 4 GB RAM (cuantizado a 4-bit)

  • ✅ Transcripción de audio offline — reconocimiento de voz nativo, ideal para grabar reuniones o notas de voz sin internet
  • ✅ Asistente de voz en el celular — responde preguntas, resume textos, todo sin conexión
  • ✅ IoT y domótica — automatizaciones inteligentes en un Raspberry Pi (133 tokens/segundo en prefill)
  • ⚠️ No sirve para código complejo ni razonamiento profundo

E4B (4.5B activos) — El Asistente de Laptop

Hardware mínimo: 6 GB RAM (cuantizado a 4-bit)

  • ✅ Transcripción y traducción de podcast — audio nativo en múltiples idiomas
  • ✅ OCR de documentos y facturas — procesa imágenes de contratos, recibos, capturas
  • ✅ Chatbot local — FAQ, onboarding, soporte básico sin APIs externas
  • ✅ Primer borrador de contenido — no es calidad publicable, pero sirve como punto de partida
  • ⚠️ Para código serio o análisis profundo, necesitas los modelos grandes

12B Unified — El Nuevo Punto Dulce (junio 2026)

Hardware mínimo: 8 GB de memoria libre (cuantizado a 4-bit) · Ideal: laptop con 16 GB

El modelo que recomendaría a la mayoría hoy para uso local. Es el único que combina inteligencia seria con audio e imagen nativos en hardware de consumo:

  • ✅ Transcripción + análisis en un solo paso — le pasas el audio de una reunión y te devuelve resumen con acuerdos, no solo el texto crudo
  • ✅ OCR y comprensión de documentos — facturas, contratos, capturas, con razonamiento encima
  • ✅ Código y automatización — 72% en LiveCodeBench v6; suficiente para scripts, workflows e integraciones
  • ✅ Agentes locales — en mis benchmarks superó al 31B en el pilar de agentes corriendo local, a 2.6× la velocidad
  • ✅ Contexto de 256K tokens — el mismo de los modelos grandes
  • ⚠️ Para exprimir la última gota de calidad en razonamiento complejo, el 31B sigue arriba (si tienes el hardware y la paciencia)

26B-A4B MoE — El Caballo de Batalla

Hardware mínimo: 16-18 GB RAM (cuantizado a 4-bit) Ideal: GPU gaming de 24 GB (RTX 4090/3090) o Mac con 32 GB de memoria unificada

Este es el modelo que más va a impactar a emprendedores y desarrolladores. Activa solo 3.8B parámetros por token, así que es rápido, pero tiene la inteligencia de un modelo de 26B.

  • ✅ Generación de contenido — posts, newsletters, emails con calidad sólida
  • ✅ Código para automatización — genera workflows, scripts, integraciones con APIs
  • ✅ Agente autónomo con herramientas — function calling nativo + thinking mode
  • ✅ Análisis de documentos — contexto de 256K tokens, puede leer documentos largos completos
  • ✅ Video comprensión — analiza clips de hasta 60 segundos
  • ✅ Planificación estratégica — razonamiento multi-paso, puede armar calendarios de contenido o analizar mercados

31B Dense — La Bestia

Hardware mínimo: 17-20 GB RAM (cuantizado a 4-bit) Ideal: GPU de 40+ GB o Mac con 64 GB de memoria unificada

El modelo más potente de la familia. #3 global entre modelos open source en Arena AI, compitiendo con modelos 20 veces su tamaño.

  • ✅ Todo lo que hace el 26B, pero mejor
  • ✅ Código de producción — ELO 2,150 en Codeforces, 80% en LiveCodeBench
  • ✅ Razonamiento complejo — análisis de inversiones, evaluación de startups, problemas de lógica avanzada
  • ✅ Fine-tuning — la mejor base para entrenar un modelo personalizado con tu tono, tu dominio, tus datos
  • ✅ Contexto largo real — 66.4% en recuperación a 128K tokens, realmente usa lo que le pasas

Requerimientos de Hardware: ¿Puedo Correrlo en Mi Computador?

Esta es la tabla más importante de este artículo.

Modelo4-bit (mínimo)8-bit (recomendado)Full BF16Corre en
E2B4 GB5-8 GB10 GBCelular, Raspberry Pi 5, laptop básica
E4B5.5-6 GB9-12 GB16 GBCualquier laptop con 8+ GB RAM
12B~8 GB~13 GB~24 GBLaptop con 16 GB RAM, Mac M1 Pro+
26B-A4B16-18 GB28-30 GB52 GBRTX 3090/4090, Mac M2 Pro+ 32GB
31B17-20 GB34-38 GB62 GBRTX 3090/4090 (apretado), Mac M2 Max+ 64GB

¿Qué significan las cuantizaciones?

  • 4-bit: Comprime el modelo para usar menos memoria. Pierde algo de calidad, pero es la forma más accesible de correrlo
  • 8-bit: Buen balance entre calidad y memoria
  • BF16 (full): Máxima calidad, requiere GPU profesional

Regla de oro: Tu memoria total disponible (RAM + VRAM) debe superar el tamaño del modelo cuantizado que quieres usar. Si no, puede correr más lento usando disco, pero no es ideal.

Cómo Descargar e Instalar Gemma 4 en 2 Minutos

La descarga de Gemma 4 es gratuita — no hay registro de pago en ninguna de estas vías.

Opción 1: Ollama (La más fácil)

## Instalar Ollama
curl -fsSL ollama.com/install.sh | sh

## Descargar y correr Gemma 4
ollama pull gemma4        # Descarga el 26B-A4B por defecto
ollama run gemma4         # Listo, a conversar

Para modelos específicos:

ollama pull gemma4:e2b    # Modelo pequeño (celular/Pi)
ollama pull gemma4:e4b    # Modelo laptop
ollama pull gemma4:12b    # El punto dulce: laptop 16 GB, multimodal (jun-2026)
ollama pull gemma4:31b    # Modelo máxima calidad

Opción 2: LM Studio (Con interfaz gráfica)

Si prefieres una interfaz visual, LM Studio tiene soporte desde el día 1. Descargas la app, buscas «Gemma 4», seleccionas la cuantización que tu hardware soporte, y listo.

Opción 3: llama.cpp (Máximo control)

Para los que quieren exprimir cada token por segundo:

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DGGML_CUDA=ON  # OFF si no tienes GPU NVIDIA
cmake --build llama.cpp/build --config Release -j

./llama.cpp/build/bin/llama-cli \
  -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
  --temp 1.0 --top-p 0.95 --top-k 64

Opción 4: Descargar los pesos directamente

Si quieres los pesos originales para fine-tuning o para tu propio stack de inferencia, el download oficial está en Hugging Face (formatos originales y GGUF cuantizados) y en Kaggle. No piden nada más que aceptar la licencia Apache 2.0.

¿No Tienes Hardware? Opciones en la Nube

No todos tienen una RTX 4090 o un Mac con 64 GB. Estas son las alternativas cloud:

Gratis

PlataformaModelos DisponiblesLímites
Google AI Studio31B, 26B-A4BRate limits generosos, API key gratuita
Hugging Face SpacesTodosInferencia gratuita limitada

Pago por uso (API)

PlataformaPrecio (31B)Ventaja
OpenRouter$0.14/M input, $0.40/M outputMulti-proveedor, fácil de integrar
Vertex AIVaría por regiónDeploy propio, compliance enterprise
NVIDIA NIMVaríaOptimizado para GPUs NVIDIA
BasetenPor segundo de inferenciaDeploy serverless

GPU Rentada (Para correr tu propia instancia)

Si quieres correr el modelo completo sin cuantizar o hacer fine-tuning:

PlataformaGPUPrecio Aprox.
RunPodA100 80GB~$1.50-2.50/hora
Vast.aiA100/H100Desde ~$1.00/hora (spot)
Lambda CloudH100 80GB~$2.50/hora
Google Cloud (GKE)L4/A100/H100Varía por región

Para contexto: con $0.14 por millón de tokens de input en OpenRouter, generar 1,000 posts de LinkedIn te costaría menos de $1 USD. Compáralo con $200/mes de una suscripción a Claude o ChatGPT Pro.

Gemma 4 vs La Competencia

¿Cómo se compara con los otros modelos open source del momento?

CategoríaGemma 4 31BQwen 3.5-27BLlama 4 Scout
Razonamiento84.3% GPQA~65% GPQA74.3% GPQA
Matemáticas89.2% AIME~49% AIME~55% AIME
Código80% LiveCodeBench~43% LiveCodeBench~50% LiveCodeBench
Contexto256K tokens131K tokens10M tokens
Idiomas140+201 (250K vocab)200+
LicenciaApache 2.0Apache 2.0Community (límite 700M MAU)
Audio nativoSolo edge (E2B/E4B)NoNo
EficienciaMoE 3.8B activosDense 27BMoE (16 expertos grandes)

¿Quién gana?

  • Calidad bruta: Gemma 4 31B domina razonamiento, código y matemáticas
  • Eficiencia: Gemma 4 26B-A4B (97% de calidad con 8x menos cómputo)
  • Contexto máximo: Llama 4 Scout (10M tokens, imbatible)
  • Idiomas: Qwen 3.5 (201 idiomas, vocabulario más grande)
  • Licencia más libre: Empate Gemma 4 / Qwen 3.5 (ambos Apache 2.0)
  • On-device / móvil: Gemma 4 E2B (el único con audio nativo en un modelo tan pequeño)

Lo Que Esto Significa Para Emprendedores

Si estás construyendo un negocio y usas IA, presta atención.

1. El costo de IA acaba de bajar drásticamente

Un modelo que compite con los mejores del mundo, corriendo en tu computador, gratis. Las suscripciones de $200-500 USD/mes en APIs ya no son obligatorias para la mayoría de casos de uso.

2. Privacidad total

Todo corre local. Tus datos, tus documentos, tus conversaciones nunca salen de tu máquina. Para startups que manejan datos sensibles, esto es un game changer.

3. Agentes locales son viables

Con function calling nativo y thinking mode, puedes construir agentes que automatizan flujos de trabajo completos sin depender de servicios cloud. Imagina un asistente que lee tus emails, actualiza tu CRM, genera reportes y programa publicaciones — todo corriendo en tu laptop. Yo mismo cambié el cerebro de mi coding agent de Opus a modelos open source y documenté el proceso; también puedes usar Claude Code con cualquier LLM, incluido un Gemma corriendo local.

4. El edge computing con IA explotó

Un modelo de 2.3B parámetros activos que entiende audio, imágenes y texto, corriendo en un Raspberry Pi. Las posibilidades para IoT, domótica, dispositivos médicos y retail son enormes.

Lo Que Gemma 4 Todavía NO Reemplaza

Seamos honestos:

  • Calidad de escritura final para contenido publicable: Claude Sonnet y GPT siguen siendo superiores para textos que requieren matiz y tono perfecto
  • Contexto masivo (repos completos de código): Llama 4 Scout con 10M tokens o Gemini Pro con 1M siguen siendo la opción
  • Audio en los modelos más potentes: el 26B y el 31B no procesan audio. Desde junio de 2026 el 12B Unified cubre ese hueco con audio nativo — pero si necesitas la máxima calidad de razonamiento Y audio en el mismo modelo, todavía no existe en la familia
  • Tareas ultra-especializadas que requieren fine-tuning extensivo: los modelos propietarios de empresas como Anthropic o OpenAI aún tienen ventaja en ciertos nichos

Conclusión

Gemma 4 no es solo una actualización. Es el momento en que los modelos open source dejaron de ser «la alternativa gratuita pero peor» y se convirtieron en una opción legítimamente competitiva.

Un modelo que:

  • Saca 89.2% en matemáticas competitivas
  • Genera código a nivel de experto (ELO 2,150)
  • Corre en una laptop con 18 GB de RAM
  • Es completamente gratis y open source
  • Tiene licencia Apache 2.0 sin restricciones

Eso no existía hace unos meses. Y la familia sigue mejorando: el 12B de junio de 2026 bajó la barrera de entrada a cualquier laptop de 16 GB, con audio e imagen incluidos.

Si eres emprendedor, desarrollador o simplemente alguien que usa IA en su día a día, instalar Ollama y probar Gemma 4 debería estar en tu lista de este fin de semana. Dos comandos y estás listo — y si tu hardware es una laptop normal, parte por gemma4:12b: según mi propia medición, es la variante con mejor relación calidad/velocidad para correr local.

¿Tienes dudas sobre modelos de IA locales o cómo integrarlos en tu negocio? Únete a mi comunidad de emprendedores en Cágala, Aprende, Repite — ahí podemos ayudarte entre todos.

Preguntas frecuentes

¿Qué es Gemma 4?

Gemma 4 es una familia de modelos de IA open source de Google DeepMind, basada en la tecnología de Gemini 3 y liberada bajo licencia Apache 2.0. Son 5 modelos (E2B, E4B, 12B, 26B MoE y 31B) que procesan texto, imagen y audio, y puedes correrlos gratis en tu propio computador con herramientas como Ollama o LM Studio.

¿Gemma 4 es gratis?

Sí. Los pesos de Gemma 4 son open source bajo licencia Apache 2.0, sin restricciones comerciales ni límite de usuarios. Corres el modelo en tu hardware sin pagar suscripción. Si no tienes hardware, hay opciones gratuitas en la nube como Google AI Studio o NVIDIA NIM, y APIs de pago por uso desde $0.14 por millón de tokens.

¿Cómo descargo e instalo Gemma 4?

La vía más fácil es Ollama: instalas Ollama con un comando, luego ejecutas "ollama pull gemma4" y "ollama run gemma4". También puedes usar LM Studio si prefieres interfaz gráfica, llama.cpp para máximo control, o descargar los pesos directo desde Hugging Face. La instalación completa toma menos de 5 minutos con buena conexión.

¿Qué computador necesito para correr Gemma 4?

Depende del modelo: el E2B corre con 4 GB de RAM (incluso en un Raspberry Pi), el E4B con 6 GB, el 12B en una laptop de 16 GB, y los modelos 26B/31B necesitan 16-20 GB cuantizados a 4-bit — una GPU tipo RTX 3090/4090 o un Mac con 32-64 GB de memoria unificada.

¿Qué es Gemma 4 12B?

Es el quinto modelo de la familia, liberado el 3 de junio de 2026. Tiene 12B de parámetros, arquitectura unificada sin encoders (procesa texto, imagen y audio nativo), contexto de 256K tokens y corre en una laptop de 16 GB. En mis benchmarks locales supera al 31B cuantizado en relación calidad/velocidad: es el nuevo punto dulce para uso local.

¿Cuál es la diferencia entre Gemma 4 y Gemini?

Gemini es el modelo propietario de Google: lo usas vía API o app, pagas por uso y los datos pasan por sus servidores. Gemma 4 comparte tecnología con Gemini 3 pero es open source: descargas los pesos, lo corres en tu hardware, tus datos no salen de tu máquina y no dependes de los términos de servicio de Google.

🚀 ¿Te interesa la tecnología que realmente importa?

En la comunidad compartimos herramientas, workflows y automatizaciones que usamos en el día a día. Sin teoría — pura práctica.

Entrar a la comunidad