世界上第一个开源视频编辑代理的介绍
视频编辑的世界因世界上第一个开源视频编辑代理的推出而变得更加令人兴奋。这项创新技术是 Diffusion Studio 和 Re-Skill 之间合作的结果,它将彻底改变我们编辑视频的方式。
问题和解决方案
导致开发这个代理的问题是 Re-Skill(一个个性化学习平台)需要一个自动工具来编辑视频。团队很快发现现有解决方案(如 FFMPEG)的局限性,并开始寻找更直观和灵活的替代方案。在探索了各种选项后,他们决定与 Diffusion Studio Core 库的作者合作,共同构建这个代理。
代理背后的技术
该代理使用基于 Python 的框架构建,并利用 Diffusion Studio Core 库。该库提供了一个基于 JavaScript 的引擎,可以直接在浏览器中使用 WebCodecs 渲染视频。这项技术通过编程接口实现了复杂合成,使得可以使用大型语言模型(LLMs)生成代码并在浏览器中运行。
代理的工作原理
该代理使用 Playwright 启动浏览器会话并连接到操作员 UI,这是一个专门为 AI 代理设计的视频编辑 UI。它直接在浏览器中使用 WebCodecs API 渲染视频,并提供了通过 Chrome DevTools 协议从 Python 传输文件到浏览器和反过来的辅助功能。
代理的流程
该代理有三个主要工具:视频编辑工具、文档搜索工具和视觉反馈工具。视频编辑工具根据用户提示生成代码并在浏览器中运行。如果需要更多上下文,文档搜索工具使用 RAG 拉取相关信息。每个执行步骤后,合成会进行采样并使用视觉反馈工具进行分析。
工具及其功能
视频编辑工具根据用户提示生成代码并在浏览器中运行。文档搜索工具在需要更多上下文时使用 RAG 拉取相关信息。视觉反馈工具分析合成并为代理提供反馈。
代理的优势
该代理提供了一种灵活和直观的视频编辑方式,使得可以使用 LLMs 生成代码并在浏览器中运行。这项技术还通过编程接口实现复杂合成,使得可以创建自定义视频编辑工作流。
代理的未来
该代理目前处于首个版本,使用 Python 构建,但 TypeScript 实现正在进行中。团队还在努力使代理更加灵活和可扩展,允许其通过 WebSockets 连接到远程浏览器会话,并在其后提供负载均衡器。
视觉反馈工具
视觉反馈工具是代理的重要组成部分,在每个执行步骤后为代理提供反馈。该工具可以作为生成器和判别器使用,类似于著名的 GAN 架构。
LM.TXT 文件
LM.TXT 文件是代理的重要组成部分,提供了一种指定模板和提示的方式,供 LLM 生成代码。该文件类似于 robots.txt 文件,但专门用于代理。
结论
世界上第一个开源视频编辑代理是一项革命性的技术,提供了一种灵活和直观的视频编辑方式。它能够使用 LLMs 生成代码并在浏览器中运行,这将永远改变我们编辑视频的方式。