CLI 优先
用熟悉的命令完成排队、控制和查看。
面向共享机器的单节点调度
在共享工作站上,用轻量 CLI 和本地 daemon 完成 GPU 或 CPU 任务的提交、排队与查看。
CLI 优先
用熟悉的命令完成排队、控制和查看。
可恢复
随时 attach、追踪日志、重做任务。
策略明确
明确声明 GPU、显存、优先级、预约和依赖。
队列快照
GPU 策略
为什么需要它
一旦工作站开始共享,临时 tmux 会话和口头约定很快就会失效。
没有队列纪律时
使用 gflow 后
工作流
gflowd up启动本地调度器。
gbatch --gpus 1 python train.py用明确的资源声明提交命令或脚本。
gqueue查看运行中、排队中或已完成任务。
gjob log <job_id>追踪日志,或在需要时 attach 会话。
能力概览
支持提交、挂起、恢复、取消、更新与重做,并提供可检查的状态模型。
直接声明 GPU 数量,开启共享模式,并设置显存上限。
通过依赖、数组任务和参数扫描组织多阶段任务。
通过表格、树状、JSON、CSV 或 YAML 查看队列状态。
每个任务都运行在独立 tmux 会话中,便于日志查看和恢复。
通过本地 MCP server 暴露调度操作,供 Agent 调用。
适用场景
多人共用一台机器时,用明确规则替代口头协调。
让长时间实验保持结构化、可恢复。
用依赖关系串联预处理、训练、评测和汇总。
文档入口
AI 集成
将 gflow 作为本地 stdio MCP server 运行后,Agent CLI 可以直接查看队列并驱动调度流程。
gflow mcp serve阅读 Agent、MCP 与 Skill把这套文档当作运维手册。