北大联合多个团队打造的数据届“PyTorch”,技术报告发布! 16:15 广告 广告 广告 了解详情 > 会员跳广告 首月9.9元 秒后跳过广告 开通搜狐视频黄金会员,尊享更高品质体验!
1080P及以上画质仅为黄金会员专享>
开通/续费会员 抱歉,您观看的视频加载失败 请检查网络连接后重试,有话要说?请点击 我要反馈>> 正在切换清晰度... 播放 按esc可退出全屏模式 00:00 00:00 00:18 广告 只看TA 高清 倍速 剧集 字幕 下拉浏览更多 5X进行中 炫彩HDRVIP尊享HDR视觉盛宴 超清 720P 高清 540P 2.0x 1.5x 1.25x 1.0x 0.8x 50哎呀,什么都没识别到反馈循环播放 跳过片头片尾 画面色彩调整 AI明星识别 视频截取 跳过片头片尾 是 | 否色彩调整亮度标准饱和度100对比度100恢复默认设置关闭复制全部logDatawhale开源
作者:北京大学 DCAI 团队
尽管当前大语言模型(LLM)在各类下游任务中展现出强大能力,其性能高度依赖高质量、高语义密度的训练数据。然而,现有的数据准备流程仍严重依赖人工设计的脚本、领域专家经验以及碎片化的工具链。这带来效率瓶颈:数据清洗、合成、过滤等环节需大量手动干预,开发周期长、复现成本高;更造成能力上限:数据质量受限于人类可规模化执行的规则或启发式策略,难以系统性地生成超越人工标注复杂度的训练样本。
受限于 LLM 数据准备的开放性、多阶段性和对模型在环(model-in-the-loop)的强依赖,目前尚缺乏一个兼具表达力、可扩展性与自动化能力的统一框架。为此,北京大学 DCAI 团队提出了 DataFlow——一个 LLM 驱动的、可编程的数据准备框架,旨在通过近 200 个可复用算子、PyTorch 风格的流水线接口以及自然语言驱动的自动编排机制,系统性解决当前 LLM 数据工程中的碎片化问题,推动高质量训练数据的高效构建与社区共享。

论文链接:https://arxiv.org/abs/2512.16676
仓库链接:https://github.com/OpenDCAI/DataFlow/
DataFlow图文教程:https://wcny4qa9krto.feishu.cn/wiki/I9tbw2qnBi0lEakmmAGclTysnFd
DataFlow视频教程:https://b23.tv/it5sssq

DataFlow 是一个统一、可编程、LLM 驱动的数据准备框架,其核心特点可精简概括为以下四点:
系统化抽象:基于全局表格化存储、LLM 服务层、算子(Operators)、提示模板(Prompt Templates)和流水线(Pipelines)构建 PyTorch 风格的模块化架构,支持可组合、可调试、可优化的数据工作流。
丰富的 LLM 原生能力:提供近 200 个可复用算子,按生成(Generate)、评估(Evaluate)、过滤(Filter)、精炼(Refine)四类组织,覆盖数学、代码、Text-to-SQL、RAG、知识提取等六大 SOTA 领域流水线。
自动化与低门槛使用:通过 DataFlow-Agent 从自然语言指令自动生成、合成并验证可执行流水线,支持“检索–复用–合成”策略,大幅降低开发门槛。
开放可扩展生态:以 Python 包形式支持用户贡献 DataFlow-Extensions,配合 CLI 脚手架工具,构建类似 PyTorch 的开源数据准备协议与社区生态。
系统化抽象:基于全局表格化存储、LLM 服务层、算子(Operators)、提示模板(Prompt Templates)和流水线(Pipelines)构建 PyTorch 风格的模块化架构,支持可组合、可调试、可优化的数据工作流。
丰富的 LLM 原生能力:提供近 200 个可复用算子,按生成(Generate)、评估(Evaluate)、过滤(Filter)、精炼(Refine)四类组织,覆盖数学、代码、Text-to-SQL、RAG、知识提取等六大 SOTA 领域流水线。
自动化与低门槛使用:通过 DataFlow-Agent 从自然语言指令自动生成、合成并验证可执行流水线,支持“检索–复用–合成”策略,大幅降低开发门槛。
开放可扩展生态:以 Python 包形式支持用户贡献 DataFlow-Extensions,配合 CLI 脚手架工具,构建类似 PyTorch 的开源数据准备协议与社区生态。

1. 全局存储
DataFlow 的全局存储抽象以表格形式统一管理 LLM 数据(如指令、回复、元数据等),通过 read和 write两个核心操作解耦数据存储与算子逻辑。该设计使算子与底层存储实现无关,支持灵活重组、批量处理,并允许无缝切换或升级存储后端(如从本地文件到数据库)。
近 200 个可复用算子,覆盖 生成、评估、过滤、精炼 四大功能;
每个算子基于统一 run(storage)接口,通过 键绑定(key-based I/O)灵活适配任意数据格式;
LLM 驱动算子通过统一 LLM Serving API调用本地(vLLM/SGLang)或云端(GPT/Gemini)模型。
近 200 个可复用算子,覆盖 生成、评估、过滤、精炼 四大功能;
每个算子基于统一 run(storage)接口,通过 键绑定(key-based I/O)灵活适配任意数据格式;
LLM 驱动算子通过统一 LLM Serving API调用本地(vLLM/SGLang)或云端(GPT/Gemini)模型。
DataFlow 围绕四个核心抽象构建了一套分层编程接口:
(1)服务接口(Serving Interface):提供统一的 generate_from_input调用入口,兼容本地推理引擎(如 vLLM)和在线 API(如 ChatGPT),自动处理批处理、重试、限速等后端细节,使算子无需关心具体 LLM 部署方式。
(2)算子(Operators):作为数据转换的基本单元,算子在初始化阶段配置参数和依赖(如 LLM 服务、提示模板),在执行阶段通过 input_* / output_*键名与全局存储交互,保证逻辑清晰、状态隔离、易于组合。
DataFlow 定义了四类算子,每类具有明确语义和命名规范(基于表格化表示:每行是一个样本,每列是一个字段):
生成(Generate):通过新增文本字段或生成新行来扩充数据。以 Generator结尾的算子为现有行添加字段;以 RowGenerator结尾的算子增加行数(如生成问答对的答案)。
评估(Evaluate):为样本或整个数据集计算分数或标签。SampleEvaluator为每行附加评估元数据;DatasetEvaluator输出数据集级指标(如为数学题分配难度、按主题分类问答对)。
过滤(Filter):基于现有字段或评估结果减少行数,不改变保留行的内容(如剔除答案错误的样本)。
精炼(Refine):在不改变样本数量的前提下修改特定字段(如移除文本中的 URL 或 emoji),通常以 Refiner为后缀。
生成(Generate):通过新增文本字段或生成新行来扩充数据。以 Generator结尾的算子为现有行添加字段;以 RowGenerator结尾的算子增加行数(如生成问答对的答案)。
评估(Evaluate):为样本或整个数据集计算分数或标签。SampleEvaluator为每行附加评估元数据;DatasetEvaluator输出数据集级指标(如为数学题分配难度、按主题分类问答对)。
过滤(Filter):基于现有字段或评估结果减少行数,不改变保留行的内容(如剔除答案错误的样本)。
精炼(Refine):在不改变样本数量的前提下修改特定字段(如移除文本中的 URL 或 emoji),通常以 Refiner为后缀。
(3)提示模板(Prompt Templates):封装可复用的提示结构,支持运行时动态填充输入字段和约束(如 JSON schema),允许同一算子通过切换模板适配不同任务或领域,提升开发效率与提示一致性。
(4)流水线(Pipelines):将多个算子按数据依赖组织为有序流程或轻量 DAG,支持 compile静态检查(如字段缺失、类型错误)和 forward延迟执行,便于调试、复用、恢复和优化大规模数据准备任务。

3. DataFlow开源生态系统
DataFlow 通过 DataFlow-Extension 机制支持可扩展的开源生态系统:用户可将自定义算子、提示模板和流水线打包为模块化扩展包,形成类似 Python 包生态的即插即用环境。
为降低开发门槛,DataFlow 提供:
CLI 工具:自动生成项目脚手架,简化扩展包创建与发布;
智能 Agent:基于自然语言自动生成数据转换逻辑,辅助高质量扩展开发。
CLI 工具:自动生成项目脚手架,简化扩展包创建与发布;
智能 Agent:基于自然语言自动生成数据转换逻辑,辅助高质量扩展开发。
拆解意图 → 检索/合成算子 → 组装 DAG → 沙箱验证 → 输出可执行 pipeline;
实验结果:小数据,大收益
DataFlow 构建了 多 个 SOTA 级领域流水线(数学、代码、Text-to-SQL、Agentic RAG、知识抽取、通用文本),在多个基准上全面超越现有方案:
1 .文本数据准备
预训练:DataFlow-30B 在6个通用基准上平均得分 35.69,优于 Random(35.26)、FineWeb-Edu(35.57)和 Qurating(35.02)。SFT:DataFlow过滤显著提升性能;合成的 DataFlow-SFT-15K 在数学平均得分 49.3,高于过滤后的 Alpaca(39.8)和 WizardLM(44.8)。对话合成:DataFlow-Chat-15K 将 AlpacaEval 从 7.05 提升至 10.11,超越 ShareGPT 和 UltraChat。
对话合成:DataFlow-Chat-15K 将 AlpacaEval 从 7.05 提升至 10.11,超越 ShareGPT 和 UltraChat。
2. 数学推理数据准备
DataFlow-Reasoning-10K 微调 Qwen2.5-32B 后,在8个数学基准上平均得分 55.7,优于 Open-R1(54.2)和 Synthetic-1(54.0)。
3. 代码数据准备
7B模型:DataFlow-Code-10K 平均得分 46.2,优于 Code Alpaca-1K 和 SC2-Exec-Filter-1K。14B模型:DataFlow-Code-10K 平均得分 51.0,LiveCodeBench 从 21.9(Code Alpaca)提升至 33.2。
4. Text-to-SQL 数据准备
Qwen2.5-Coder-7B 在 DataFlow-Text2SQL-90K 上训练后:Spider-dev 执行准确率从 73.4 → 82.0(+8.6)BIRD-dev 从 50.9 → 59.2(+8.3)EHRSQL 从 24.3 → 56.1(+31.8)DataFlow-Text2SQL-50K 优于 SynSQL-50K;DataFlow-90K 性能接近 SynSQL-2.5M。Spider-dev 执行准确率从 73.4 → 82.0(+8.6)BIRD-dev 从 50.9 → 59.2(+8.3)EHRSQL 从 24.3 → 56.1(+31.8)
5. AgenticRAG 数据准备
在多跳问答 OOD(分布外)评估中,DF-AgenticRAG-10k:超过 HotpotQA-10k(37.4 vs. 36.4)超过 Musique-20k(43.6 vs. 42.4)在多个基准上达到或超越人工标注数据集的泛化能力。超过 HotpotQA-10k(37.4 vs. 36.4)超过 Musique-20k(43.6 vs. 42.4)6. 知识抽取(医学 QA)
SFT 模型在 DataFlow-Knowledge 上训练后:PubMedQA 和 Covert 提升 15–20 个百分点PubHealth 提升 11 个百分点显著优于 Zero-shot CoT 和 RAG 基线。PubMedQA 和 Covert 提升 15–20 个百分点PubHealth 提升 11 个百分点7. 统一多领域数据准
使用仅 10K 高质量合成样本(DataFlow-Instruct-10K):表明:小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。数学:Qwen2.5-7B 得分 46.7,接近 Instruct 模型(49.8),远超 Inf-1M(33.3)代码:Code-Overall 达 78.6,接近 Instruct(80.6),优于 Inf-1M(78.0)通用知识(MMLU/C-Eval):无性能下降,常仅次于 Instruct 模型表明:小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。数学:Qwen2.5-7B 得分 46.7,接近 Instruct 模型(49.8),远超 Inf-1M(33.3)代码:Code-Overall 达 78.6,接近 Instruct(80.6),优于 Inf-1M(78.0)表明:小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。
表明:小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。


8.智能代理编排(Agent Orchestration)
在文本规范对齐(pipeline-level)评估中,LLM-Judge 平均得分 0.80;在代码实现一致性(code-level)评估中,平均得分 0.49;随任务描述模糊度增加(Easy → Hard),性能显著下降(Hard 级 code 得分仅 0.23)。核心结论:
数据质量 > 数据规模。
精心设计的合成+精炼流程,可构建比人工数据更高效、更鲁棒的训练集。
核心结论:
数据质量 > 数据规模。
精心设计的合成+精炼流程,可构建比人工数据更高效、更鲁棒的训练集。

DCAI 团队的开源项目返回搜狐,查看更多
评论 (0)