重磅更新
OpenCSG(开放传神)正式发布 Fineweb-Edu-Chinese V2.3 数据集。这是一份面向中文大模型训练、NLP 任务构建与多语言研究的高质量中文教育语料数据集,聚焦中文文本中的教育价值、内容质量与训练可用性,为中文大模型预训练、继续预训练和数据研究提供更可靠的数据基础。
V2.3 版本延续了 Chinese Fineweb Edu 系列在中文高质量语料建设上的方向:从海量中文 Web 内容中筛选更适合模型学习的教育类文本,而不是简单追求语料规模。对于中文大模型而言,真正稀缺的并不只是“更多中文文本”,而是信息密度更高、表达更清晰、结构更完整、能够支撑模型知识理解与语言能力提升的高质量数据。
在数据定位上,Fineweb-Edu-Chinese V2.3 继续面向中文教育语料场景,强调文本的可学习性和训练价值。它更适合作为中文模型训练中的高质量数据来源,可用于中文文本理解、知识问答、摘要生成、阅读理解、教育类 NLP 任务以及多语言研究中的中文语料补充。

版本演进

1 v1.0
核心定位:概念验证
数据规模:约 9000 万条,约 300GB
关键特性与改进:初代 Chinese Fineweb Edu 语料;BERT 打分模型;MinHash 去重;数据源包括 CCI2、SkyPile、Tele-AI
2 v2.0
核心定位:规模化扩展
数据规模:约 1.88 亿条,约 420B tokens
关键特性与改进:升级至 OpenCSG csg-wukong-enterprise V2 打分器;扩展 Industry2、wanjuan1.0、wudao 等数据源
3 v2.1
核心定位:预训练精选
数据规模:总计约 1.5T tokens
关键特性与改进:按分数分层组织;新增 map-cc、opencsg-cc;支持灵活预训练和课程学习
3 v2.2
核心定位:SFT与对齐
数据规模:约 143.7 万条高质量问答
关键特性与改进:将高质量教育语料转化为 SFT 问答数据;提供纯 QA 与上下文版本
3 v2.3
核心定位:更高纯度的 SFT 数据
数据规模:23.04 万条 QA pairs
关键特性与改进:升级 V2.2 的源文本选择和生成逻辑;强化证据对齐、质量过滤和多格式导出
Chinese Fineweb Edu Dataset V2.3
Fineweb-Edu-Chinese V2.3是 OpenCSG(开放传神)推出的高质量中文教育语料数据集,面向中文大模型训练、NLP 任务构建与多语言研究场景。Fineweb-Edu-Chinese V2.3 延续了 OpenCSG 在中文高质量数据集建设上的方向:从海量中文内容中筛选更具教育价值、更适合模型学习的语料,让中文大模型不只是“读到更多中文”,而是能够“学到更好的中文”

1 v2.3 的核心价值
中文教育 SFT 数据长期面临高质量公开数据稀缺、教育网页内容与可训练问答格式之间存在断层、合成数据容易重复空泛且难以验证等问题。
Fineweb-Edu-Chinese V2.3 的目标是提供一批更适合直接进入监督微调流程的中文教育问答数据。
v2.3 重点提升三类能力:
- 更稳定的中文教育回答能力:数据覆盖概念解释、事实问答、结构化总结、步骤推理和面向学习者的清晰表达。
- 更高纯度的 SFT 训练输入:筛选目标从“是否像教育内容”升级为“是否适合生成可回答、可追溯、可训练的 SFT 样本”。
- 更低接入成本的训练格式:同一批 QA pairs 同步提供 Alpaca、Messages、Messages-no-system 三种格式,方便直接接入常见训练框架。
方便社区用户和产业团队直接接入常见训练框架,用于中文教育助手、知识服务、企业培训、垂直问答和文本生成模型建设。

2质量升级:规模更克制,筛选更严格
V2.2 将Fineweb-Edu-Chinese 系列从预训练语料推进到 SFT 问答数据,为社区提供了大规模中文教育问答样本;V2.3 则在此基础上进一步收紧质量门槛,更强调源文本选择、生成稳定性和训练可用性。
V2.3 的规模小于 V2.2,并不是因为数据能力下降,而是因为筛选标准更严格:系统不再只保留“看起来具有教育属性”的文本,而是进一步判断候选文本是否能够支撑稳定、清晰、有依据的 SFT 问答构造。
v2.3 加强了对长段回答重复句式、循环表达、异常中英文混入、乱码、网页模板、广告导航、弱证据样本和缺少来源约束回答的控制,让最终保留的数据更适合在后训练阶段提升模型回答质量。
3从源文本到可训练 QA pairs
V2.3 的筛选策略围绕一个核心目标展开:优先让更可能产出稳定、可回答、有教育价值问答的源文本进入后续构造流程。入选文本通常需要具备中文主体清晰、可读性强、语义连贯、结构完整、知识密度较高、信息相对自洽、能够为问题和答案提供明确依据、低重复低模板低噪声等特征。

经过筛选的 selected source text 会进入 FineWeb-Edu-Ultra 数据构建链路,由 GPT-4.1 mini 生成问答,并经过证据对齐、格式校验和质量过滤后导出为训练格式。V2.3 的可复制难点不在于单次调用生成模型,而在于把大规模中文源语料治理、标注目标定义、筛选模型训练、问答生成和质量审计串成闭环,从源头判断哪些中文文本真正值得进入训练链路。
数据规格与仓库组织
同一批 QA pairs 同步提供 Alpaca、Messages、Messages-no-system 三种格式。由于同一问答会被导出为多种训练格式,实际训练时应根据模型模板选择对应 split。

真实样例
样例一:语文知识
Question
“什么是AABB结构成语?请结合摇摇摆摆、清清楚楚等例子说明其特点和表达作用,并举例说明正确与错误使用该类成语时可能带来的语义或语境差异。”
Answer
“AABB结构成语由两个相同的双字组成,例如“摇摇摆摆”、“恍恍惚惚”、“清清楚楚”等。这类成语通常用来形容某种状态或动作的持续性、反复性或强烈程度。以“摇摇摆摆”为例,它描述动作不稳或晃动的状态;“清清楚楚”则表示非常明白、明确。
通过填空练习,学生可以加深对这类成语构成和用法的理解与掌握。正确使用这类成语能够准确传递表达对象的特点,增强语言的生动性。例如:“树在风中摇摇摆摆”生动形象地描绘了树木的晃动。而错误使用可能导致语义模糊或语境不符,如将“清清楚楚”用于形容模糊的事物,会使表达产生矛盾,影响理解。
总之,掌握AABB成语的结构和语境适用,有助于提高语文表达的准确性和丰富性。”
样例二:工业自动化
Question
“组态软件如何利用实时多任务和多线程技术提升工业自动化中的数据采集与监控效率?其良好可靠性、可扩展性和封装性对系统性能和用户操作有哪些具体影响?请结合实例说明丰富的图形工具和设备驱动如何满足复杂工业需求。”
Answer
“组态软件通过采用多线程操作,实现了实时多任务处理,使其能够在工业自动化环境中快速响应各类数据采集与监控需求。多线程机制保证监控界面能够实时刷新,同时支持数据的及时输入与输出,从而提高了系统的响应速度和效率。
良好的可靠性依赖于稳定的硬件配置及供电系统配合,同时支持第三方程序接口,增强了软件与不同硬件及系统的兼容性,降低系统运行故障率。软件的可扩展性允许用户通过开发应用程序对控制系统进行微调和功能拓展,使系统能够适应不断变化的工业需求。封装性方面,组态软件将复杂的编程操作封装在图形化界面中,使非专业编程人员也能轻松通过图形界面完成系统配置,提高了用户操作的便利性和效率。
举例来说,丰富的图形工具和标准图形库支持用户快速创建直观的人机交互界面,便于实时监控生产过程。多样化的设备驱动程序则保障了不同硬件设备间的稳定通信,并支持自定义通信协议和驱动程序开发包,从而满足复杂工业自动化系统中多样化的设备接入与数据交互需求。总体而言,这些特性协同作用,有效提升了工业自动化系统的控制精度、运行稳定性及操作便捷性。”
快速开始
from datasets import load_dataset
ds_messages = load_dataset(
"OpenCSG/Fineweb-Edu-Chinese-V2.3",
split="train_messages",
)
ds_messages_no_sys = load_dataset(
"OpenCSG/Fineweb-Edu-Chinese-V2.3",
split="train_messages_no_sys",
)
ds_alpaca = load_dataset(
"OpenCSG/Fineweb-Edu-Chinese-V2.3",
split="train_alpaca",
)
OpenCSG全球开源生态
OpenCSG发布的FineWeb-Edu-Chinese作为全球下载量排名前三的中文预训练数据集,累计下载超百万次,其价值已经得到业界广泛认可:
- 学术领域:被斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、上海人工智能实验室、北京智源研究院等 20 余家顶尖机构的论文引用。旗下 Chinese Fineweb Edu 已成为中文 NLP 研究的核心数据资源,被 100 + 篇学术论文引用,在 NeurIPS、ACL、EMNLP、ICLR 等国际顶会及 Nature 子刊、JMLR 等权威期刊中作为核心实验数据集,支撑大模型预训练、指令微调等前沿研究,合作机构还包括鹏城实验室、西南电子技术研究所、西班牙国家级超算中心(Barcelona Supercomputing Center)及 Mozilla Data Collective等全球顶尖科研单位。
- 产业应用:支撑 Llama3-Chinese、DeepSeek 等知名模型训练,并被中国移动、中国联通、英伟达(NVIDIA)、苹果公司(Apple Inc.)、OPPO、美团、阿里巴巴、蚂蚁集团、面壁智能(ModelBest)、Krafton等领军企业采用。Chinese Fineweb Edu 已从实验室走向产业场景,为创业公司到头部企业的研发团队提供可靠支撑,切实推动中文 NLP 应用从理论落地到生产实践。
- 生态影响:下载数量累计超百万次,数据体量达 2.42TB,覆盖 9.57 亿条高质量文本,已孵化出 10 余个垂直领域微调模型。同时,OpenCSG 通过开源打分模型和完整工具链,输出数据治理方法论,带动行业从 “模型参数内卷” 转向 “数据基建完善”,显著降低中小开发者与研究机构的入门门槛。
- 开源生态:OpenCSG 坚持“开源即文化”的理念,通过透明、共创、共享的社区文化,与全球开发者、工程师和 AI 原生企业共同构建智能体生态。
数据地址
OpenCSG社区:
https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.3
Hugging Face社区:
https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.3
魔搭社区:
https://www.modelscope.cn/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.3
关于OpenCSG
OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

691

被折叠的 条评论
为什么被折叠?



