北大联合多个团队打造的数据届“PyTorch”，技术报告发布！

北大联合多个团队打造的数据届“PyTorch”，技术报告发布！ 16:15 广告广告广告了解详情 > 会员跳广告首月9.9元秒后跳过广告

开通搜狐视频黄金会员，尊享更高品质体验！

开通/续费会员抱歉，您观看的视频加载失败请检查网络连接后重试，有话要说？请点击我要反馈>> 正在切换清晰度... 播放按esc可退出全屏模式 00:00 00:00 00:18 广告只看TA 高清倍速剧集字幕下拉浏览更多 5X进行中炫彩HDRVIP尊享HDR视觉盛宴超清 720P 高清 540P 2.0x 1.5x 1.25x 1.0x 0.8x 50哎呀，什么都没识别到反馈循环播放跳过片头片尾画面色彩调整 AI明星识别视频截取跳过片头片尾是 | 否色彩调整亮度标准饱和度100对比度100恢复默认设置关闭复制全部log

Datawhale开源

作者：北京大学 DCAI 团队

尽管当前大语言模型（LLM）在各类下游任务中展现出强大能力，其性能高度依赖高质量、高语义密度的训练数据。然而，现有的数据准备流程仍严重依赖人工设计的脚本、领域专家经验以及碎片化的工具链。这带来效率瓶颈：数据清洗、合成、过滤等环节需大量手动干预，开发周期长、复现成本高；更造成能力上限：数据质量受限于人类可规模化执行的规则或启发式策略，难以系统性地生成超越人工标注复杂度的训练样本。

受限于 LLM 数据准备的开放性、多阶段性和对模型在环（model-in-the-loop）的强依赖，目前尚缺乏一个兼具表达力、可扩展性与自动化能力的统一框架。为此，北京大学 DCAI 团队提出了 DataFlow——一个 LLM 驱动的、可编程的数据准备框架，旨在通过近 200 个可复用算子、PyTorch 风格的流水线接口以及自然语言驱动的自动编排机制，系统性解决当前 LLM 数据工程中的碎片化问题，推动高质量训练数据的高效构建与社区共享。

论文链接：https://arxiv.org/abs/2512.16676

仓库链接：https://github.com/OpenDCAI/DataFlow/

DataFlow图文教程：https://wcny4qa9krto.feishu.cn/wiki/I9tbw2qnBi0lEakmmAGclTysnFd

DataFlow视频教程：https://b23.tv/it5sssq

展开全文

DataFlow 是一个统一、可编程、LLM 驱动的数据准备框架，其核心特点可精简概括为以下四点：

系统化抽象：基于全局表格化存储、LLM 服务层、算子（Operators）、提示模板（Prompt Templates）和流水线（Pipelines）构建 PyTorch 风格的模块化架构，支持可组合、可调试、可优化的数据工作流。

丰富的 LLM 原生能力：提供近 200 个可复用算子，按生成（Generate）、评估（Evaluate）、过滤（Filter）、精炼（Refine）四类组织，覆盖数学、代码、Text-to-SQL、RAG、知识提取等六大 SOTA 领域流水线。

自动化与低门槛使用：通过 DataFlow-Agent 从自然语言指令自动生成、合成并验证可执行流水线，支持“检索–复用–合成”策略，大幅降低开发门槛。

开放可扩展生态：以 Python 包形式支持用户贡献 DataFlow-Extensions，配合 CLI 脚手架工具，构建类似 PyTorch 的开源数据准备协议与社区生态。

自动化与低门槛使用：通过 DataFlow-Agent 从自然语言指令自动生成、合成并验证可执行流水线，支持“检索–复用–合成”策略，大幅降低开发门槛。

开放可扩展生态：以 Python 包形式支持用户贡献 DataFlow-Extensions，配合 CLI 脚手架工具，构建类似 PyTorch 的开源数据准备协议与社区生态。

1. 全局存储

DataFlow 的全局存储抽象以表格形式统一管理 LLM 数据（如指令、回复、元数据等），通过 read和 write两个核心操作解耦数据存储与算子逻辑。该设计使算子与底层存储实现无关，支持灵活重组、批量处理，并允许无缝切换或升级存储后端（如从本地文件到数据库）。

近 200 个可复用算子，覆盖生成、评估、过滤、精炼四大功能；

每个算子基于统一 run(storage)接口，通过键绑定（key-based I/O）灵活适配任意数据格式；

LLM 驱动算子通过统一 LLM Serving API调用本地（vLLM/SGLang）或云端（GPT/Gemini）模型。

近 200 个可复用算子，覆盖生成、评估、过滤、精炼四大功能；

每个算子基于统一 run(storage)接口，通过键绑定（key-based I/O）灵活适配任意数据格式；

LLM 驱动算子通过统一 LLM Serving API调用本地（vLLM/SGLang）或云端（GPT/Gemini）模型。

DataFlow 围绕四个核心抽象构建了一套分层编程接口：

（1）服务接口（Serving Interface）：提供统一的 generate_from_input调用入口，兼容本地推理引擎（如 vLLM）和在线 API（如 ChatGPT），自动处理批处理、重试、限速等后端细节，使算子无需关心具体 LLM 部署方式。

（2）算子（Operators）：作为数据转换的基本单元，算子在初始化阶段配置参数和依赖（如 LLM 服务、提示模板），在执行阶段通过 input_* / output_*键名与全局存储交互，保证逻辑清晰、状态隔离、易于组合。

DataFlow 定义了四类算子，每类具有明确语义和命名规范（基于表格化表示：每行是一个样本，每列是一个字段）：

生成（Generate）：通过新增文本字段或生成新行来扩充数据。以 Generator结尾的算子为现有行添加字段；以 RowGenerator结尾的算子增加行数（如生成问答对的答案）。

评估（Evaluate）：为样本或整个数据集计算分数或标签。SampleEvaluator为每行附加评估元数据；DatasetEvaluator输出数据集级指标（如为数学题分配难度、按主题分类问答对）。

过滤（Filter）：基于现有字段或评估结果减少行数，不改变保留行的内容（如剔除答案错误的样本）。

精炼（Refine）：在不改变样本数量的前提下修改特定字段（如移除文本中的 URL 或 emoji），通常以 Refiner为后缀。

过滤（Filter）：基于现有字段或评估结果减少行数，不改变保留行的内容（如剔除答案错误的样本）。

精炼（Refine）：在不改变样本数量的前提下修改特定字段（如移除文本中的 URL 或 emoji），通常以 Refiner为后缀。

（3）提示模板（Prompt Templates）：封装可复用的提示结构，支持运行时动态填充输入字段和约束（如 JSON schema），允许同一算子通过切换模板适配不同任务或领域，提升开发效率与提示一致性。

（4）流水线（Pipelines）：将多个算子按数据依赖组织为有序流程或轻量 DAG，支持 compile静态检查（如字段缺失、类型错误）和 forward延迟执行，便于调试、复用、恢复和优化大规模数据准备任务。

3. DataFlow开源生态系统

DataFlow 通过 DataFlow-Extension 机制支持可扩展的开源生态系统：用户可将自定义算子、提示模板和流水线打包为模块化扩展包，形成类似 Python 包生态的即插即用环境。

为降低开发门槛，DataFlow 提供：

CLI 工具：自动生成项目脚手架，简化扩展包创建与发布；

智能 Agent：基于自然语言自动生成数据转换逻辑，辅助高质量扩展开发。

CLI 工具：自动生成项目脚手架，简化扩展包创建与发布；

智能 Agent：基于自然语言自动生成数据转换逻辑，辅助高质量扩展开发。

拆解意图 → 检索/合成算子 → 组装 DAG → 沙箱验证 → 输出可执行 pipeline；

实验结果：小数据，大收益

DataFlow 构建了多个 SOTA 级领域流水线（数学、代码、Text-to-SQL、Agentic RAG、知识抽取、通用文本），在多个基准上全面超越现有方案：

1 .文本数据准备

预训练：DataFlow-30B 在6个通用基准上平均得分 35.69，优于 Random（35.26）、FineWeb-Edu（35.57）和 Qurating（35.02）。SFT：DataFlow过滤显著提升性能；合成的 DataFlow-SFT-15K 在数学平均得分 49.3，高于过滤后的 Alpaca（39.8）和 WizardLM（44.8）。

对话合成：DataFlow-Chat-15K 将 AlpacaEval 从 7.05 提升至 10.11，超越 ShareGPT 和 UltraChat。

2. 数学推理数据准备

DataFlow-Reasoning-10K 微调 Qwen2.5-32B 后，在8个数学基准上平均得分 55.7，优于 Open-R1（54.2）和 Synthetic-1（54.0）。

3. 代码数据准备

7B模型：DataFlow-Code-10K 平均得分 46.2，优于 Code Alpaca-1K 和 SC2-Exec-Filter-1K。14B模型：DataFlow-Code-10K 平均得分 51.0，LiveCodeBench 从 21.9（Code Alpaca）提升至 33.2。

4. Text-to-SQL 数据准备

Qwen2.5-Coder-7B 在 DataFlow-Text2SQL-90K 上训练后：Spider-dev 执行准确率从 73.4 → 82.0（+8.6）BIRD-dev 从 50.9 → 59.2（+8.3）EHRSQL 从 24.3 → 56.1（+31.8）DataFlow-Text2SQL-50K 优于 SynSQL-50K；DataFlow-90K 性能接近 SynSQL-2.5M。Spider-dev 执行准确率从 73.4 → 82.0（+8.6）BIRD-dev 从 50.9 → 59.2（+8.3）EHRSQL 从 24.3 → 56.1（+31.8）

5. AgenticRAG 数据准备

在多跳问答 OOD（分布外）评估中，DF-AgenticRAG-10k：超过 HotpotQA-10k（37.4 vs. 36.4）超过 Musique-20k（43.6 vs. 42.4）在多个基准上达到或超越人工标注数据集的泛化能力。超过 HotpotQA-10k（37.4 vs. 36.4）超过 Musique-20k（43.6 vs. 42.4）

6. 知识抽取（医学 QA）

SFT 模型在 DataFlow-Knowledge 上训练后：PubMedQA 和 Covert 提升 15–20 个百分点PubHealth 提升 11 个百分点显著优于 Zero-shot CoT 和 RAG 基线。PubMedQA 和 Covert 提升 15–20 个百分点PubHealth 提升 11 个百分点

7. 统一多领域数据准

使用仅 10K 高质量合成样本（DataFlow-Instruct-10K）：表明：小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。数学：Qwen2.5-7B 得分 46.7，接近 Instruct 模型（49.8），远超 Inf-1M（33.3）代码：Code-Overall 达 78.6，接近 Instruct（80.6），优于 Inf-1M（78.0）通用知识（MMLU/C-Eval）：无性能下降，常仅次于 Instruct 模型表明：小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。数学：Qwen2.5-7B 得分 46.7，接近 Instruct 模型（49.8），远超 Inf-1M（33.3）代码：Code-Overall 达 78.6，接近 Instruct（80.6），优于 Inf-1M（78.0）

表明：小规模、高质量、领域特化的合成数据可媲美大规模通用指令数据。

8.智能代理编排（Agent Orchestration）

在文本规范对齐（pipeline-level）评估中，LLM-Judge 平均得分 0.80；在代码实现一致性（code-level）评估中，平均得分 0.49；随任务描述模糊度增加（Easy → Hard），性能显著下降（Hard 级 code 得分仅 0.23）。

核心结论：

数据质量 > 数据规模。

精心设计的合成+精炼流程，可构建比人工数据更高效、更鲁棒的训练集。

核心结论：

数据质量 > 数据规模。

精心设计的合成+精炼流程，可构建比人工数据更高效、更鲁棒的训练集。

DCAI 团队的开源项目返回搜狐，查看更多

北大联合多个团队打造的数据届“PyTorch”，技术报告发布！

开通搜狐视频黄金会员，尊享更高品质体验！

评论 (0)