数据分析Task1--论文数据统计

最新推荐文章于 2021-03-07 22:29:24 发布

原创

最新推荐文章于 2021-03-07 22:29:24 发布 · 569 阅读

标签

#数据分析 #python

本文利用Pandas对2019年计算机各子领域论文数量进行统计，数据来源于Kaggle的arXiv。通过数据预处理，发现共有172种独立论文种类，最多的是Astrophysics。接着筛选出2019年后的计算机领域论文，分析发现Computer Vision and Pattern Recognition类别的论文数量最多且持续增长。

任务：使用 Pandas 读取数据并统计论文数量，即统计2019年全年计算机各个方向论文数量；

数据集来源：https://www.kaggle.com/Cornell-University/arxiv

数据集格式：

id：arXiv ID，可用于访问论文；

submitter：论文提交者；

authors：论文作者；

title：论文标题；

comments：论文页数和图表等其他信息；

journal-ref：论文发表的期刊的信息；

doi：数字对象标识符，https://www.doi.org；

report-no：报告编号；

categories：论文在 arXiv 系统的所属类别或标签；

license：文章的许可证；

abstract：论文摘要；

versions：论文版本；

authors_parsed：作者的信息。

代码实现：

导入package并读取原始数据

# 导入所需的package

import seaborn as sns #用于画图

from bs4 import BeautifulSoup #用于爬取arxiv的数据

import re #用于正则表达式，匹配字符串的模式

import requests #用于网络连接，发送网络请求，使用域名获取对应信息

import json #读取数据，我们的数据为json格式的

import pandas as pd #数据处理，数据分析

import matplotlib.pyplot as plt #画图工具

使用的package的版本如下（python 3.7.4）：

seaborn：0.9.0

BeautifulSoup：4.8.0

requests：2.22.0

json：0.8.5

pandas：0.25.1

matplotlib：3.1.1

# 读入数据

data  = [] #初始化

#使用with语句优势：1.自动关闭文件句柄；2.自动显示（处理）文件读取数据异常

with open("I:/数据分析/arxiv-metadata-oai-2019.json/arxiv-metadata-oai-2019.json", 'r') as f:

    for line in f:

        data.append(json.loads(line))

data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析

data.sh

最低0.47元/天解锁文章