任务:使用 Pandas 读取数据并统计论文数量,即统计2019年全年计算机各个方向论文数量;
数据集来源:https://www.kaggle.com/Cornell-University/arxiv
数据集格式:
id:arXiv ID,可用于访问论文;
submitter:论文提交者;
authors:论文作者;
title:论文标题;
comments:论文页数和图表等其他信息;
journal-ref:论文发表的期刊的信息;
doi:数字对象标识符,https://www.doi.org;
report-no:报告编号;
categories:论文在 arXiv 系统的所属类别或标签;
license:文章的许可证;
abstract:论文摘要;
versions:论文版本;
authors_parsed:作者的信息。
代码实现:
导入package并读取原始数据
# 导入所需的package
import seaborn as sns #用于画图
from bs4 import BeautifulSoup #用于爬取arxiv的数据
import re #用于正则表达式,匹配字符串的模式
import requests #用于网络连接,发送网络请求,使用域名获取对应信息
import json #读取数据,我们的数据为json格式的
import pandas as pd #数据处理,数据分析
import matplotlib.pyplot as plt #画图工具
使用的package的版本如下(python 3.7.4):
seaborn:0.9.0
BeautifulSoup:4.8.0
requests:2.22.0
json:0.8.5
pandas:0.25.1
matplotlib:3.1.1
# 读入数据
data = [] #初始化
#使用with语句优势:1.自动关闭文件句柄;2.自动显示(处理)文件读取数据异常
with open("I:/数据分析/arxiv-metadata-oai-2019.json/arxiv-metadata-oai-2019.json", 'r') as f:
for line in f:
data.append(json.loads(line))
data = pd.DataFrame(data) #将list变为dataframe格式,方便使用pandas进行分析
data.sh

本文利用Pandas对2019年计算机各子领域论文数量进行统计,数据来源于Kaggle的arXiv。通过数据预处理,发现共有172种独立论文种类,最多的是Astrophysics。接着筛选出2019年后的计算机领域论文,分析发现Computer Vision and Pattern Recognition类别的论文数量最多且持续增长。

892

被折叠的 条评论
为什么被折叠?



