Flipbook 爆火背后：AI 正在让网页本身消失（2026）

你有没有想过，浏览器里的一切——按钮、链接、文字、菜单——全部不存在？

不是隐藏了，是压根没有。你看到的每一个像素，都是 AI 模型实时画出来的。文字是画的，图标是画的，你以为能点的按钮也是画的。你点了一下，AI 看到你点的位置，理解你想看什么，然后画一张全新的页面给你。

这不是科幻概念片。这是 Flipbook，一个上周刚炸开科技圈的原型产品。

这东西到底是什么

Flipbook 的官方定义是”无限视觉浏览器”（infinite visual browser）。说人话就是：你输入一个搜索词，它不给你网页，给你一张画。一张像百科全书插图一样的、精心排版的画面。画面上的任何区域都可以点击，点了之后生成下一张画，无限深入。

没有 HTML，没有 CSS，没有 DOM 树，没有布局引擎。整个页面就是一张 JPEG 图片，大约 1376×768 像素，实时生成。页面上的文字？也是像素，是图像模型画出来的——偶尔还会拼错，比如把”handlebars”画成”HANDLEEBRS”。这不是 bug，这是”没有 HTML”的代价。

做这个东西的三个人来头不小：Zain Shah，前 OpenAI 研究员、前三星创意技术专家、YC S13 校友；Eddie Jiao，前 Humane 和 Slack 工程师；Drew O’Carr，前苹果工程师。4 月 22 日，Shah 在 X 上发了一条推文，配了演示视频，直接引爆了讨论。

Fast Company 把它比作苹果 1987 年的 HyperCard——那个让普通人第一次能用”卡片+链接”的方式组织信息的传奇软件。这个类比很准确：Flipbook 做的事情，本质上就是把”信息探索”从”查询数据库”变成了”漫游一片风景”。

技术上怎么实现的

开源社区已经把 Flipbook 扒了个底朝天。一个叫 OpenFlipbook 的项目用 Playwright 做了完整的逆向工程，技术细节非常清晰：

静态模式（默认）：用户输入查询后，后端调用图像生成模型，通过 SSE（Server-Sent Events）流式传输渐进式 JPEG。一次请求大约 19 秒返回 7.7MB 数据，图像逐步细化直到最终帧渲染完成。生成的图片存储在 R2（S3 兼容存储）上，每张页面有永久链接。

点击导航：用户点击图片上的任意位置时，系统把点击坐标和当前图片发给一个视觉语言模型（VLM），VLM 识别出你点的是什么东西，把它转化为下一个查询词，然后生成新页面。这个”点哪看哪”的交互，比传统的超链接自然得多。

视频模式（可选）：打开视频开关后，Flipbook 通过 WebSocket 连接到 Modal Labs 的无服务器 GPU 集群，运行 Lightricks 的 LTX-2 视频扩散模型，实时流式传输 1080p 24fps 的视频。每一帧都是模型生成的。用的是自定义的二进制协议（被逆向工程者命名为”LTXF”），底层是 H.264 编码的 fMP4 分段，通过 MediaSource API 在浏览器中播放。

内部代号叫”Sketchapedia”——素描百科。这个名字比”Flipbook”更能说明它的野心。

值得注意的是：Shah 推文里说的”每个像素都从模型实时流出”描述的是视频模式，不是默认体验。视频模式因为太吃算力，默认是关闭的。日常浏览用的是静态图片模式。

为什么这件事重要

Flipbook 真正有意思的地方，不在于它用了什么模型或者跑在什么 GPU 上。重要的是它提出了一个问题：如果 AI 足够好，我们还需要网页吗？

过去 30 年，我们和信息交互的方式本质上没变过。从 1993 年的 Mosaic 浏览器到今天的 Chrome，底层逻辑都是一样的：服务器返回结构化文档（HTML），浏览器解析渲染，用户通过预定义的交互元素（链接、按钮、表单）操作。

ChatGPT 出来之后，很多人觉得”对话框”就是新的界面范式。但 Flipbook 的创始团队说了一句很到位的话：

把聊天框和固定布局当成 AI 的终极界面来卖，就像把马车装上引擎然后叫它汽车一样。

Flipbook 走的是另一条路：不是在旧界面上叠加 AI，而是让 AI 直接成为界面本身。你不需要学习任何交互规则——看到什么感兴趣的，点它就行。这种交互方式对人类来说是最自然的，比打字搜索、比点菜单、比和聊天机器人对话都自然。

这让人想起一个更大的趋势：界面正在从”结构化”走向”生成式”。传统界面是预先设计好的，有固定的布局、固定的交互路径。生成式界面是按需创建的，每个用户看到的都不一样，每次交互都产生新的内容。

如果这个方向走通了，受影响的不只是搜索引擎。教育（想象一本可以无限深入的视觉教科书）、电商（点击商品图片的任何细节都能展开）、地图（每个街区都能生成实时的视觉导览）——所有需要”探索”的场景都可能被重新定义。

但现实很骨感

说完了愿景，得说说现实。Flipbook 目前的状态，用一个词形容就是：概念验证。

算力问题是最大的瓶颈。静态模式下，生成一张页面需要约 19 秒。视频模式需要持续占用 GPU 资源流式生成每一帧。按照 OpenFlipbook 的估算，用 fal.ai 的 API 生成一段 5 秒的动画大约花费 0.02 美元——听起来不多，但如果每次点击都触发一次生成，一个用户浏览 10 分钟可能就要烧掉几美元的 GPU 成本。规模化？目前想都别想。

准确性是另一个硬伤。图像模型画文字的能力还很粗糙。”speeds”会被画成”speds”，”handlebars”变成”HANDLEEBRS”。对于一个以信息传递为核心的产品来说，文字不准确是致命的。你不能让用户在一个”百科全书”里读到错别字满天飞的内容。

无障碍访问几乎为零。整个页面是一张图片，屏幕阅读器完全无法识别内容。文字无法选中、无法复制、无法翻译。对视障用户来说，这个产品等于不存在。在 2026 年做一个完全不可访问的信息产品，这是一个需要认真面对的问题。

信息可信度无法保证。AI 生成的”百科页面”看起来很权威，但内容可能是幻觉。没有来源标注，没有引用链接，用户无法验证信息的准确性。这比传统搜索引擎的虚假信息问题更严重——至少 Google 还会告诉你信息来自哪个网站。

交互深度有限。目前只支持”点击探索”这一种交互。不能输入文字、不能拖拽、不能缩放、不能做任何需要精确操作的事情。Shah 自己也承认，Flipbook 目前的功能很有限，团队是围绕”视觉解读”来设计的。

开源社区已经动手了

有意思的是，Flipbook 发布不到一周，开源社区就搞出了一个叫 OpenFlipbook（又名 Endless Canvas）的复刻版。不仅复刻了核心功能，还做了几个关键改进：

用 Qwen 2.5 VL 72B（开源视觉语言模型）替代了闭源 LLM，通过 OpenRouter 调用
支持自带 API Key，不依赖中心化服务
加了状态显示——你能看到 VLM 正在分析你的点击、正在规划页面、正在绘制，而不是盯着一张静止的图等 15 秒
完整的 Docker Compose 部署，一条命令跑起来

这说明两件事：第一，Flipbook 的核心创意确实有吸引力；第二，技术门槛没有高到不可复制。真正的护城河不在技术实现，而在模型质量和用户体验的打磨。

对普通人意味着什么

短期内，Flipbook 不会改变你的日常生活。它还是一个需要排队体验的原型，算力撑不起大规模使用，信息准确性也不够可靠。

但它展示的方向值得关注。未来的信息界面，很可能不再是”搜索-点击-阅读”的线性流程，而是”看到-好奇-深入”的视觉探索。搜索框不会真的消失，但它的角色会从”入口”变成”起点”——你输入一个词，然后进入一个为你实时生成的视觉世界，用最直觉的方式（看和点）去探索。

这对内容创作者来说是一个信号：纯文字内容的价值可能会被进一步压缩。当 AI 能把任何主题变成一张可交互的视觉百科时，”写一篇文章”和”生成一个可探索的视觉空间”之间的竞争力差距会越来越大。

对开发者来说，Flipbook 代表了一种可能性：未来的前端开发，也许不再是写 HTML/CSS/JavaScript，而是训练和调优生成模型。界面不再是”搭建”出来的，而是”生长”出来的。

当然，这一切的前提是算力成本能降下来、模型准确性能提上去。按照目前 GPU 算力的降价速度和模型能力的提升曲线，这个时间窗口可能比我们想象的要短。

Flipbook 不是答案，但它可能是正确的问题。

来源

RankMath SEO 建议

Focus Keyword: Flipbook AI 视觉浏览器

SEO Title: Flipbook 爆火背后：AI 正在让网页本身消失 | FuturePicker

Meta Description: 前 OpenAI 研究员打造的 Flipbook 用 AI 实时生成每一个像素，没有 HTML、没有代码，点击任意位置即可无限探索。这个”无限视觉浏览器”代表了怎样的 UI 范式转变？深度解析技术原理、局限与未来影响。

Slug: flipbook-ai-visual-browser-ui-future

分类: Future Perspectives / AI 工具

标签: Flipbook, AI 浏览器, 视觉界面, 生成式 UI, LTX Video, 像素生成, UI 范式

Stay updated with our latest AI insights

一句”猫爱睡觉”让 AI 错误率暴增 300%：推理模型的致命弱点和生存指南

换了底座模型，你还是你吗？AI Agent 的身份困局

AI Agent 的”器灵时刻”：从工具到伙伴，正在重走一遍东方神话的进化路径

Flipbook 爆火背后：AI 正在让网页本身消失