Pytorch 加载数据集的几种方法

原创已于 2022-04-26 17:16:01 修改 · 2k 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#经验分享 #人工智能

于 2022-04-26 17:06:41 首次发布

本文介绍了PyTorch中加载数据集的三种方法，包括直接使用torchvision.datasets加载MNIST数据集，并通过DataLoader进行批处理。文中强调了Dataset和DataLoader的区别，Dataset存储样本及其标签，而DataLoader提供了便捷的数据访问方式。同时，还提及了数据集可视化的处理以及如何自定义Dataset。最后，提供了官方文档链接以供深入学习。

Pytorch 加载数据集的几种方法

总结

坑

方案1：

方案2：

train_dataset = torchvision.datasets.MNIST(root='./data',
                                           train=True,
                                           transform=transforms.ToTensor(),
                                           download=True)

test_dataset = torchvision.datasets.MNIST(root='./data',
                                          train=False,
                                          transform=transforms.ToTensor())

# Data loader
train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
                                           batch_size=batch_size,
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset,
                                          batch_size=batch_size,
                                          shuffle=False)

在for循环中调用

for i, (images, labels) in enumerate(train_loader):

方案3：官网的介绍

Dataset stores the samples and their corresponding labels

Dataset 包含数据样本和相应的标签labels；

DataLoader wraps an iterable around the Dataset to enable easy access to the samples.

DataLoader 相当于是对dateset的一个迭代器封装；

对数据集中的数据，进行可视化；

构建自己的dataset

Datasets & DataLoaders — PyTorch Tutorials 1.11.0+cu102 documentation

官方文档YYDS