Google 新开源的 Gemma 4，手机上跑 4B 模型终于成真了

2026-04-06

你的 iPhone 也能运行大模型了

导语

Google 刚刚发布了 Gemma 4 开源模型家族，同时推出了官方 App——Google AI Edge Gallery。E4B 模型只有 4B 参数，却能在 iPhone 上流畅运行。AI 正从云端走向你的掌心。

01 Gemma 4：Google 最聪明的开源模型

2026 年初，Google 发布了 Gemma 4 开源模型家族¹。与之前的 Gemma 系列不同，这次 Google 采用了”有效参数”（Effective）的概念——E2B 和 E4B 模型在推理时只激活 2B 和 4B 参数，专门为移动设备和 IoT 设备优化。

四个尺寸覆盖不同场景²：

模型	参数量	适用场景
E2B	2B	手机、IoT 设备
E4B	4B	手机、边缘设备
26B MoE	26B（激活 3.8B）	低延迟服务器
31B Dense	31B	工作站、GPU

E2B 和 E4B 模型的设计目标是”完全离线、近零延迟”运行在手机等边缘设备上¹。Google 与高通、联发科等芯片厂商合作，确保这些模型能在 Android 设备上原生运行¹。

E4B 模型的特点¹：

多模态支持：原生支持视频、图像、音频输入
128K 上下文：可处理长文档和代码仓库
140+ 语言：支持全球大多数语言
Apache 2.0 许可：完全开源，可商用

02 Google 官方方案：AI Edge Gallery + Agent Skills

体验 Gemma 4 E2B/E4B 最直接的方式是使用 Google 官方推出的 Google AI Edge Gallery 应用³。

什么是 Google AI Edge Gallery？

这是 Google 官方开发的移动应用，允许你在设备上直接体验和实验 Gemma 4 的边缘 AI 能力³。

下载方式：

iOS：App Store
Android：Google Play

Agent Skills：手机上的 AI Agent

Google AI Edge Gallery 的核心功能是 Agent Skills——首批完全在设备上运行的多步骤自主 Agent 工作流应用³。

Agent Skills 能做什么：

扩展知识库：通过技能访问训练数据之外的信息，例如查询 Wikipedia 回答百科问题
端到端体验：通过对话管理复杂工作流，甚至可以创建完整的应用程序
完全离线：所有推理在本地完成，数据不出设备

官方示例⁴：

Wikipedia 查询技能
动物叫声识别与播放应用

LiteRT-LM：开发者首选

对于开发者，Google 还提供了 LiteRT-LM 库，用于将 Gemma 4 集成到自己的应用中⁵。

LiteRT-LM 特性⁵：

最小内存占用：E2B 模型在部分设备上运行仅需 <1.5GB 内存
结构化解码：确保输出可预测、可靠
动态上下文：灵活支持 CPU/GPU 切换

设备性能表现³：

设备	处理器	性能
Raspberry Pi 5	CPU	133 prefill / 7.6 decode tokens/s
Qualcomm Dragonwing IQ8	NPU	3,700 prefill / 31 decode tokens/s

03 为什么 4B 是”手机模型”的甜点尺寸？

你可能会问：现在动辄上百亿参数的模型，4B 够用吗？

答案是：对手机场景来说，4B 是性能与功耗的最佳平衡点。

参数量与内存占用关系⁵：

参数量	FP16（半精度）	INT4（4位量化）
2B	~4GB	~1GB
4B	~8GB	~2GB
7B	~14GB	~3.5GB

iPhone 的内存限制是关键约束：

iPhone 13/14 系列：4-6GB RAM
iPhone 15/16 Pro 系列：8GB RAM
iPhone 17 Pro 系列：8-12GB RAM（根据型号）

4B 模型经过 INT4 量化后，只需要约 2GB 内存，为系统和应用留出足够空间⁶。

LiteRT-LM 官方数据³：

E2B 在优化设备上运行内存 <1.5GB

E4B 在 iPhone 15 Pro 上推理流畅

完全离线运行，不消耗网络流量

04 其他本地运行方案

除了 Google 官方方案，还有其他第三方工具可以在 iPhone 上运行 Gemma 4：

方案一：MLC LLM（开源社区）

MLC LLM（Machine Learning Compilation for LLM）是一个跨平台框架，支持在 iOS、Android、Web 等平台运行大语言模型⁷。

特点：

开源免费，社区活跃
支持 Gemma、Llama、Qwen 等多种模型
提供 iOS App，可直接安装使用

方案二：LM Studio

LM Studio 是一款流行的本地 LLM 运行工具，支持 Gemma 4 系列⁸。

特点：

跨平台支持（Windows/macOS/Linux）
友好的用户界面
支持模型量化和自定义

方案三：自建（高级用户）

对于开发者，可以通过 Xcode 编译源码，自定义模型和界面。

05 本地模型 vs 云端 API：怎么选？

维度	本地模型	云端 API
隐私	数据不出设备	数据上传服务器
网络	完全离线	需要网络连接
成本	一次性下载	按 token 计费
速度	受设备性能限制	服务器强大
能力	较小模型	可用最强模型

适合使用本地模型的场景：

处理敏感信息（日记、财务数据）
旅行、通勤等无网络环境
需要长期高频使用，控制成本
对隐私有极高要求

仍需使用云端 API 的场景：

需要最强的推理能力（复杂任务）
需要多模态能力（高清图像、视频）
设备性能不足（旧款手机）

06 Gemma 4 在手机上的实际能力

根据 Google 官方演示，E4B 模型在手机上可以完成以下任务¹：

任务类型	表现
文本生成	流畅撰写邮件、短文
知识问答	140+ 语言问答
Agent 工作流	多步骤自主任务执行
文档摘要	128K 上下文支持长文档
多模态	OCR、图表理解

需要注意的局限性：