Huggingface微调数据集

最新推荐文章于 2026-06-19 23:05:55 发布

原创最新推荐文章于 2026-06-19 23:05:55 发布 · 458 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#大数据 #数据挖掘 #人工智能 #自然语言处理

45 篇文章

订阅专栏

44 篇文章

订阅专栏

1.垂直领域知识增强

数据集名称	Huggingface链接	说明
shibing624/medical	https://huggingface.co/datasets/shibing624/medical	240万条中文医疗数据集（含预训练、指令微调和奖励数据集）
shibing624/huatuo_medical_qa_sharegpt	https://huggingface.co/datasets/shibing624/huatuo_medical_qa_sharegpt	22万条中文医疗对话数据集（华佗项目），ShareGPT格式

数据集名称	Huggingface链接	说明
BAAI/IndustryInstruction_Finance-Economics	https://huggingface.co/datasets/BAAI/IndustryInstruction_Finance-Economics	12.2万条金融经济领域指令数据，中文占比32.9%

未找到Huggingface上公开的法律微调指令数据集。欢迎补充。

数据集名称	Huggingface链接	说明
shibing624/roleplay-zh-sharegpt-gpt4-data	https://huggingface.co/datasets/shibing624/roleplay-zh-sharegpt-gpt4-data	7千条中文角色扮演多轮对话数据集，ShareGPT-GPT4格式

数据集名称	Huggingface链接	说明
flagopen/InfinityMATH	https://huggingface.co/datasets/flagopen/InfinityMATH	程序化数学推理指令微调数据集，支持CoT/PoT方法，CIKM 2024论文

未在huggingface找到专门的代码微调指令数据集。通用指令数据集中可能包含部分代码数据，但专门针对代码的微调数据集（如CodeAlpaca、Magicoder等）需要另行搜索。

数据集名称	Huggingface链接	说明
shibing624/DPO-En-Zh-20k-Preference	https://huggingface.co/datasets/shibing624/DPO-En-Zh-20k-Preference	2万条中英文偏好数据集，适用于DPO/RLHF
liyucheng/zhihu_rlhf_3k	https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k	3千条中文知乎问答偏好数据集
TRIDENT (GitHub发布，Huggingface待查)	https://github.com/FishT0ucher/TRIDENT	红队测试安全对齐数据集，含26k+18k条有害指令+道德响应

此外，还有大量英文偏好数据集：

Dahoas/full-hh-rlhf

Dahoas/static-hh

OpenAssistant/oasst1

tasksource/oasst1_pairwise_rlhf_reward

未在huggingface找到专门用于多语言微调的中小规模指令数据集。有Lucie项目发布了多语言预训练语料，但更偏向预训练而非微调阶段。

数据集名称	Huggingface链接	说明
THUDM/LongCite-45k	https://huggingface.co/datasets/THUDM/LongCite-45k	4.46万条长上下文QA实例（最长支持128k词），附带句子级引文，中英文双语

未在huggingface中找到专门用于结构化抽取微调的公开数据集。华为云文档中提供了一个催收意图识别的场景数据样例，但该数据未开源，仅为业务场景示例。

微调场景	是否有Huggingface数据集	推荐数据集
医疗领域	✅	shibing624/medical, shibing624/huatuo_medical_qa_sharegpt
金融领域	✅	BAAI/IndustryInstruction_Finance-Economics
法律领域	⚠️	未找到公开指令数据集
角色扮演	✅	shibing624/roleplay-zh-sharegpt-gpt4-data
数学推理	✅	flagopen/InfinityMATH
代码辅助	⚠️	未找到（需另行搜索）
安全对齐	✅	shibing624/DPO-En-Zh-20k-Preference, TRIDENT
多语言	⚠️	未找到专用微调数据集
长文本	✅	THUDM/LongCite-45k
结构化抽取	⚠️	未找到公开数据集