一、数据集
使用爬虫获取的26万份裁判文书,可以在链接:
链接: 全国范围内爬取的26万份裁判文书.提取码:t2nh
训练模型源自链接: Text Classification with CNN and RNN.
二、训练过程
一共训练5轮
数据格式为目录:标签名,文本为内容


写入方法
def wenshu_cut():
with open(r"J:\PyCharm项目\github项目\文本分类\罪名分类\罪名分类.json", "r")as f:
train_text = {}
global one
text = f.read()
#text = json.dumps(text)
text = json.loads(text)
#print(list(text.keys()))
path = os.path.dirname(__file__) + "\\test"
for key in text.keys():
values = text[key]
if values != []:

本文介绍了一个基于Text-CNN的裁判文书分类项目,详细讲述了从数据集爬取、预处理到模型训练及成果展示的全过程。通过爬取26万份裁判文书并进行6分类实验,展示了文本分类的实际应用。

1万+

被折叠的 条评论
为什么被折叠?



