数据准备
说明:UIE是基于Prompt的通用信息抽取框架,本文为个人学习UIE代码的笔记,学的过程中简单翻译了一下数据准备部分readme(顺序按实际处理过程有所调整),自己添加的说明都在引用格式里。
论文:
Unified Structure Generation for Universal Information Extraction。源代码:https://github.com/universal-ie/UIE
本内容所在文件夹:dataset_processing
目录结构:
.
├── converted_data/ # Final converted datasets
├── data/ # Raw data
├── data_config/ # Dataset config
├── README.md
├── run_data_generation.bash # Convert all datasets
├── run_sample.bash # Sample low-resource datasets
├── scripts/ # Scripts for preprocessing
├── uie_convert.py # Main Python File
└── universal_ie/ # Code for preprocessing
数据集预处理
使用了以下前人所做的数据预处理工作:
| Dataset | Preprocessing |
|---|---|
| ACE04 | mrc-for-flat-nested-ner |
| ACE05 | mrc-for-flat-nested-ner |
| ACE05-Rel | sincere |
| CoNLL 04 | sincere |
| NYT | JointER |
| SCIERC | dygiepp |
| ACE05-Evt | OneIE |
| CASIE | CASIE, Our preprocessing code see here. |
| 14lap | BARTABSA |
| l4res | BARTABSA |
| 15res | BARTABSA |
| 16res | BARTABSA |
ABSA
git clone https://github.com/yhcc/BARTABSA data/BARTABSA
mv data/BARTABSA/data data/absa
没有问题,按照原文可以下载,如果git clone网速过慢,可以直接去下载BARTABSA库,再从里面把数据拷贝到相应目录。
Entity(实体抽取)
# CoNLL03 这个下下来直接放在data/conll03文件夹下
mkdir data/conll03
wget https://raw.githubusercontent.com/synalp/NER/master/corpus/CoNLL-2003/eng.train -P data/conll03
wget https://raw.githubusercontent.com/synalp/NER/master/corpus/CoNLL-2003/eng.testa -P data/conll03
wget https://raw.githubusercontent.com/synalp/NER/master/corpus/CoNLL-2003/eng.testb -P data/conll03
# gdown >= 4.4.0
pip install -U gdown
mkdir data/mrc_ner
# ACE04
gdown 1U-hGOgLmdqudsRdKIGles1-QrNJ7SSg6 -O data/mrc_ner/ace2004.tar.gz
tar zxvf data/mrc_ner/ace2004.tar.gz -C data/mrc_ner
# ACE05
gdown 1iodaJ92dTAjUWnkMyYm8aLEi5hj3cseY -O data/mrc_ner/ace2005.tar.gz
tar zxvf data/mrc_ner/ace2005.tar.gz -C data/mrc_ner
CoNLL03我自己的电脑下不下来,是通过aistudio(百度ai平台,在平台上运行上述代码)下载后,又从aistudio中下载的;
ACE04、ACE05自己电脑、aistudio都下不下来,gdown被q了没办法,自己买太贵(好像1500刀)放弃。
Relation(关系抽取)
NYT
mkdir data/NYT-multi
wget -P data/NYT-multi https://raw.githubusercontent.com/yubowen-ph/JointER/master/dataset/NYT-multi/data/train.json
wget -P data/NYT-multi https://raw.githubusercontent.com/yubowen-p

文章介绍了UIE通用信息抽取框架的数据准备过程,包括各种数据集的下载、转换和预处理步骤,如CoNLL03、ACE04/05、NYT等数据集的处理,以及实体、关系和事件抽取的相关工作。

679

被折叠的 条评论
为什么被折叠?



