Google 新开源的 Gemma 4,手机上跑 4B 模型终于成真了

你的 iPhone 也能运行大模型了


导语

Google 刚刚发布了 Gemma 4 开源模型家族,同时推出了官方 App——Google AI Edge Gallery。E4B 模型只有 4B 参数,却能在 iPhone 上流畅运行。AI 正从云端走向你的掌心。


01 Gemma 4:Google 最聪明的开源模型

2026 年初,Google 发布了 Gemma 4 开源模型家族1。与之前的 Gemma 系列不同,这次 Google 采用了”有效参数”(Effective)的概念——E2B 和 E4B 模型在推理时只激活 2B 和 4B 参数,专门为移动设备和 IoT 设备优化。

四个尺寸覆盖不同场景2

模型参数量适用场景
E2B2B手机、IoT 设备
E4B4B手机、边缘设备
26B MoE26B(激活 3.8B)低延迟服务器
31B Dense31B工作站、GPU

E2B 和 E4B 模型的设计目标是”完全离线、近零延迟”运行在手机等边缘设备上1。Google 与高通、联发科等芯片厂商合作,确保这些模型能在 Android 设备上原生运行1

E4B 模型的特点1

  • 多模态支持:原生支持视频、图像、音频输入
  • 128K 上下文:可处理长文档和代码仓库
  • 140+ 语言:支持全球大多数语言
  • Apache 2.0 许可:完全开源,可商用

02 Google 官方方案:AI Edge Gallery + Agent Skills

体验 Gemma 4 E2B/E4B 最直接的方式是使用 Google 官方推出的 Google AI Edge Gallery 应用3

什么是 Google AI Edge Gallery?

这是 Google 官方开发的移动应用,允许你在设备上直接体验和实验 Gemma 4 的边缘 AI 能力3

下载方式

Agent Skills:手机上的 AI Agent

Google AI Edge Gallery 的核心功能是 Agent Skills——首批完全在设备上运行的多步骤自主 Agent 工作流应用3

Agent Skills 能做什么

  • 扩展知识库:通过技能访问训练数据之外的信息,例如查询 Wikipedia 回答百科问题
  • 端到端体验:通过对话管理复杂工作流,甚至可以创建完整的应用程序
  • 完全离线:所有推理在本地完成,数据不出设备

官方示例4

  • Wikipedia 查询技能
  • 动物叫声识别与播放应用

LiteRT-LM:开发者首选

对于开发者,Google 还提供了 LiteRT-LM 库,用于将 Gemma 4 集成到自己的应用中5

LiteRT-LM 特性5

  • 最小内存占用:E2B 模型在部分设备上运行仅需 <1.5GB 内存
  • 结构化解码:确保输出可预测、可靠
  • 动态上下文:灵活支持 CPU/GPU 切换

设备性能表现3

设备处理器性能
Raspberry Pi 5CPU133 prefill / 7.6 decode tokens/s
Qualcomm Dragonwing IQ8NPU3,700 prefill / 31 decode tokens/s

03 为什么 4B 是”手机模型”的甜点尺寸?

你可能会问:现在动辄上百亿参数的模型,4B 够用吗?

答案是:对手机场景来说,4B 是性能与功耗的最佳平衡点

参数量与内存占用关系5

参数量FP16(半精度)INT4(4位量化)
2B~4GB~1GB
4B~8GB~2GB
7B~14GB~3.5GB

iPhone 的内存限制是关键约束:

  • iPhone 13/14 系列:4-6GB RAM
  • iPhone 15/16 Pro 系列:8GB RAM
  • iPhone 17 Pro 系列:8-12GB RAM(根据型号)

4B 模型经过 INT4 量化后,只需要约 2GB 内存,为系统和应用留出足够空间6

LiteRT-LM 官方数据3

  • E2B 在优化设备上运行内存 <1.5GB
  • E4B 在 iPhone 15 Pro 上推理流畅
  • 完全离线运行,不消耗网络流量

04 其他本地运行方案

除了 Google 官方方案,还有其他第三方工具可以在 iPhone 上运行 Gemma 4:

方案一:MLC LLM(开源社区)

MLC LLM(Machine Learning Compilation for LLM)是一个跨平台框架,支持在 iOS、Android、Web 等平台运行大语言模型7

特点

  • 开源免费,社区活跃
  • 支持 Gemma、Llama、Qwen 等多种模型
  • 提供 iOS App,可直接安装使用

方案二:LM Studio

LM Studio 是一款流行的本地 LLM 运行工具,支持 Gemma 4 系列8

特点

  • 跨平台支持(Windows/macOS/Linux)
  • 友好的用户界面
  • 支持模型量化和自定义

方案三:自建(高级用户)

对于开发者,可以通过 Xcode 编译源码,自定义模型和界面。


05 本地模型 vs 云端 API:怎么选?

维度本地模型云端 API
隐私数据不出设备数据上传服务器
网络完全离线需要网络连接
成本一次性下载按 token 计费
速度受设备性能限制服务器强大
能力较小模型可用最强模型

适合使用本地模型的场景

  • 处理敏感信息(日记、财务数据)
  • 旅行、通勤等无网络环境
  • 需要长期高频使用,控制成本
  • 对隐私有极高要求

仍需使用云端 API 的场景

  • 需要最强的推理能力(复杂任务)
  • 需要多模态能力(高清图像、视频)
  • 设备性能不足(旧款手机)

06 Gemma 4 在手机上的实际能力

根据 Google 官方演示,E4B 模型在手机上可以完成以下任务1

任务类型表现
文本生成流畅撰写邮件、短文
知识问答140+ 语言问答
Agent 工作流多步骤自主任务执行
文档摘要128K 上下文支持长文档
多模态OCR、图表理解

需要注意的局限性

  • 复杂数学推理能力有限
  • 不适合专业级代码生成
  • 多轮对话上下文窗口受限
  • 速度受设备性能影响

常见问题 Q&A

Q1:Gemma 4 是免费的吗?

A:是的,Gemma 4 采用 Apache 2.0 开源许可,可免费商用1。Google AI Edge Gallery 应用也免费提供。

Q2:我的 iPhone 能运行 E4B 模型吗?

A:建议 iPhone 13 及以上(A15 芯片及更新)。iPhone 17 Pro 系列体验最佳。

Q3:下载模型需要多少空间?

A:通过 Google AI Edge Gallery 下载时,应用会自动管理模型缓存。LiteRT-LM 的 E2B 模型在部分设备上仅需 <1.5GB 内存3

Q4:本地模型会耗电很快吗?

A:推理时会增加功耗,但 E2B/E4B 经过专门优化,正常使用不会造成严重发热或耗电1

Q5:Agent Skills 是什么?

A:Agent Skills 是 Google AI Edge Gallery 的核心功能,允许 Gemma 4 完全在设备上执行多步骤自主任务3


参考资料

[1]  Google Blog – Gemma 4: Byte for byte, the most capable open models — 模型发布、特性、许可、功耗优化

[2]  Hugging Face – Gemma 4 模型家族 — 四个尺寸模型

[3]  Google Developers Blog – Bring state-of-the-art agentic skills to the edge with Gemma 4 — AI Edge Gallery、Agent Skills、LiteRT-LM 性能

[4]  Google AI Edge Gallery – GitHub — 官方示例代码

[5]  LiteRT-LM 官方文档 — 内存占用、设备兼容性

[6]  Apple 技术规格 – iPhone 内存配置 — 各机型 RAM

[7]  MLC LLM 官网 — 跨平台框架

[8]  LM Studio – Gemma 4 支持 — 桌面运行工具

[9]  9to5Google – Gemma 4 发布报道 — 媒体报道