你有没有想过,浏览器里的一切——按钮、链接、文字、菜单——全部不存在?
不是隐藏了,是压根没有。你看到的每一个像素,都是 AI 模型实时画出来的。文字是画的,图标是画的,你以为能点的按钮也是画的。你点了一下,AI 看到你点的位置,理解你想看什么,然后画一张全新的页面给你。
这不是科幻概念片。这是 Flipbook,一个上周刚炸开科技圈的原型产品。
这东西到底是什么
Flipbook 的官方定义是”无限视觉浏览器”(infinite visual browser)。说人话就是:你输入一个搜索词,它不给你网页,给你一张画。一张像百科全书插图一样的、精心排版的画面。画面上的任何区域都可以点击,点了之后生成下一张画,无限深入。
没有 HTML,没有 CSS,没有 DOM 树,没有布局引擎。整个页面就是一张 JPEG 图片,大约 1376×768 像素,实时生成。页面上的文字?也是像素,是图像模型画出来的——偶尔还会拼错,比如把”handlebars”画成”HANDLEEBRS”。这不是 bug,这是”没有 HTML”的代价。
做这个东西的三个人来头不小:Zain Shah,前 OpenAI 研究员、前三星创意技术专家、YC S13 校友;Eddie Jiao,前 Humane 和 Slack 工程师;Drew O’Carr,前苹果工程师。4 月 22 日,Shah 在 X 上发了一条推文,配了演示视频,直接引爆了讨论。
Fast Company 把它比作苹果 1987 年的 HyperCard——那个让普通人第一次能用”卡片+链接”的方式组织信息的传奇软件。这个类比很准确:Flipbook 做的事情,本质上就是把”信息探索”从”查询数据库”变成了”漫游一片风景”。
技术上怎么实现的
开源社区已经把 Flipbook 扒了个底朝天。一个叫 OpenFlipbook 的项目用 Playwright 做了完整的逆向工程,技术细节非常清晰:
静态模式(默认):用户输入查询后,后端调用图像生成模型,通过 SSE(Server-Sent Events)流式传输渐进式 JPEG。一次请求大约 19 秒返回 7.7MB 数据,图像逐步细化直到最终帧渲染完成。生成的图片存储在 R2(S3 兼容存储)上,每张页面有永久链接。
点击导航:用户点击图片上的任意位置时,系统把点击坐标和当前图片发给一个视觉语言模型(VLM),VLM 识别出你点的是什么东西,把它转化为下一个查询词,然后生成新页面。这个”点哪看哪”的交互,比传统的超链接自然得多。
视频模式(可选):打开视频开关后,Flipbook 通过 WebSocket 连接到 Modal Labs 的无服务器 GPU 集群,运行 Lightricks 的 LTX-2 视频扩散模型,实时流式传输 1080p 24fps 的视频。每一帧都是模型生成的。用的是自定义的二进制协议(被逆向工程者命名为”LTXF”),底层是 H.264 编码的 fMP4 分段,通过 MediaSource API 在浏览器中播放。
内部代号叫”Sketchapedia”——素描百科。这个名字比”Flipbook”更能说明它的野心。
值得注意的是:Shah 推文里说的”每个像素都从模型实时流出”描述的是视频模式,不是默认体验。视频模式因为太吃算力,默认是关闭的。日常浏览用的是静态图片模式。
为什么这件事重要
Flipbook 真正有意思的地方,不在于它用了什么模型或者跑在什么 GPU 上。重要的是它提出了一个问题:如果 AI 足够好,我们还需要网页吗?
过去 30 年,我们和信息交互的方式本质上没变过。从 1993 年的 Mosaic 浏览器到今天的 Chrome,底层逻辑都是一样的:服务器返回结构化文档(HTML),浏览器解析渲染,用户通过预定义的交互元素(链接、按钮、表单)操作。
ChatGPT 出来之后,很多人觉得”对话框”就是新的界面范式。但 Flipbook 的创始团队说了一句很到位的话:
把聊天框和固定布局当成 AI 的终极界面来卖,就像把马车装上引擎然后叫它汽车一样。
Flipbook 走的是另一条路:不是在旧界面上叠加 AI,而是让 AI 直接成为界面本身。你不需要学习任何交互规则——看到什么感兴趣的,点它就行。这种交互方式对人类来说是最自然的,比打字搜索、比点菜单、比和聊天机器人对话都自然。
这让人想起一个更大的趋势:界面正在从”结构化”走向”生成式”。传统界面是预先设计好的,有固定的布局、固定的交互路径。生成式界面是按需创建的,每个用户看到的都不一样,每次交互都产生新的内容。
如果这个方向走通了,受影响的不只是搜索引擎。教育(想象一本可以无限深入的视觉教科书)、电商(点击商品图片的任何细节都能展开)、地图(每个街区都能生成实时的视觉导览)——所有需要”探索”的场景都可能被重新定义。
但现实很骨感
说完了愿景,得说说现实。Flipbook 目前的状态,用一个词形容就是:概念验证。
算力问题是最大的瓶颈。静态模式下,生成一张页面需要约 19 秒。视频模式需要持续占用 GPU 资源流式生成每一帧。按照 OpenFlipbook 的估算,用 fal.ai 的 API 生成一段 5 秒的动画大约花费 0.02 美元——听起来不多,但如果每次点击都触发一次生成,一个用户浏览 10 分钟可能就要烧掉几美元的 GPU 成本。规模化?目前想都别想。
准确性是另一个硬伤。图像模型画文字的能力还很粗糙。”speeds”会被画成”speds”,”handlebars”变成”HANDLEEBRS”。对于一个以信息传递为核心的产品来说,文字不准确是致命的。你不能让用户在一个”百科全书”里读到错别字满天飞的内容。
无障碍访问几乎为零。整个页面是一张图片,屏幕阅读器完全无法识别内容。文字无法选中、无法复制、无法翻译。对视障用户来说,这个产品等于不存在。在 2026 年做一个完全不可访问的信息产品,这是一个需要认真面对的问题。
信息可信度无法保证。AI 生成的”百科页面”看起来很权威,但内容可能是幻觉。没有来源标注,没有引用链接,用户无法验证信息的准确性。这比传统搜索引擎的虚假信息问题更严重——至少 Google 还会告诉你信息来自哪个网站。
交互深度有限。目前只支持”点击探索”这一种交互。不能输入文字、不能拖拽、不能缩放、不能做任何需要精确操作的事情。Shah 自己也承认,Flipbook 目前的功能很有限,团队是围绕”视觉解读”来设计的。
开源社区已经动手了
有意思的是,Flipbook 发布不到一周,开源社区就搞出了一个叫 OpenFlipbook(又名 Endless Canvas)的复刻版。不仅复刻了核心功能,还做了几个关键改进:
- 用 Qwen 2.5 VL 72B(开源视觉语言模型)替代了闭源 LLM,通过 OpenRouter 调用
- 支持自带 API Key,不依赖中心化服务
- 加了状态显示——你能看到 VLM 正在分析你的点击、正在规划页面、正在绘制,而不是盯着一张静止的图等 15 秒
- 完整的 Docker Compose 部署,一条命令跑起来
这说明两件事:第一,Flipbook 的核心创意确实有吸引力;第二,技术门槛没有高到不可复制。真正的护城河不在技术实现,而在模型质量和用户体验的打磨。
对普通人意味着什么
短期内,Flipbook 不会改变你的日常生活。它还是一个需要排队体验的原型,算力撑不起大规模使用,信息准确性也不够可靠。
但它展示的方向值得关注。未来的信息界面,很可能不再是”搜索-点击-阅读”的线性流程,而是”看到-好奇-深入”的视觉探索。搜索框不会真的消失,但它的角色会从”入口”变成”起点”——你输入一个词,然后进入一个为你实时生成的视觉世界,用最直觉的方式(看和点)去探索。
这对内容创作者来说是一个信号:纯文字内容的价值可能会被进一步压缩。当 AI 能把任何主题变成一张可交互的视觉百科时,”写一篇文章”和”生成一个可探索的视觉空间”之间的竞争力差距会越来越大。
对开发者来说,Flipbook 代表了一种可能性:未来的前端开发,也许不再是写 HTML/CSS/JavaScript,而是训练和调优生成模型。界面不再是”搭建”出来的,而是”生长”出来的。
当然,这一切的前提是算力成本能降下来、模型准确性能提上去。按照目前 GPU 算力的降价速度和模型能力的提升曲线,这个时间窗口可能比我们想象的要短。
Flipbook 不是答案,但它可能是正确的问题。
RankMath SEO 建议
Focus Keyword: Flipbook AI 视觉浏览器
SEO Title: Flipbook 爆火背后:AI 正在让网页本身消失 | FuturePicker
Meta Description: 前 OpenAI 研究员打造的 Flipbook 用 AI 实时生成每一个像素,没有 HTML、没有代码,点击任意位置即可无限探索。这个”无限视觉浏览器”代表了怎样的 UI 范式转变?深度解析技术原理、局限与未来影响。
Slug: flipbook-ai-visual-browser-ui-future
分类: Future Perspectives / AI 工具
标签: Flipbook, AI 浏览器, 视觉界面, 生成式 UI, LTX Video, 像素生成, UI 范式



