text-cnn裁判文书分类

最新推荐文章于 2026-06-18 16:56:25 发布

原创

最新推荐文章于 2026-06-18 16:56:25 发布 · 3.9k 阅读

标签

#python #深度学习 #数据挖掘

收录于

本文介绍了一个基于Text-CNN的裁判文书分类项目，详细讲述了从数据集爬取、预处理到模型训练及成果展示的全过程。通过爬取26万份裁判文书并进行6分类实验，展示了文本分类的实际应用。

text-cnn裁判文书分类

一、数据集
二、训练过程
三、成果

一、数据集

使用爬虫获取的26万份裁判文书，可以在链接:
链接: 全国范围内爬取的26万份裁判文书.提取码：t2nh
训练模型源自链接: Text Classification with CNN and RNN.

二、训练过程

一共训练5轮
数据格式为目录：标签名，文本为内容
在这里插入图片描述

写入方法

def wenshu_cut():
	with open(r"J:\PyCharm项目\github项目\文本分类\罪名分类\罪名分类.json", "r")as f:
    	train_text = {}
    	global one
    	text = f.read()
    	#text = json.dumps(text)
    	text = json.loads(text)
    	#print(list(text.keys()))
    	path = os.path.dirname(__file__) + "\\test"


    	for key in text.keys():
        	values = text[key]
        	if values != []: