python快速读取非常大的文件

最新推荐文章于 2024-12-12 08:45:34 发布

转载最新推荐文章于 2024-12-12 08:45:34 发布 · 8.5k 阅读

收录于

python 专栏收录该内容

81 篇文章

订阅专栏

本文分享了两种读取大文件的有效方法，一种是使用Python的with语句逐行读取，另一种是自定义buffer机制并结合协程进行数据读取。通过测试，这两种方法在读取3GB文件时表现优异。

读取大文件是我们平时经常会遇到的问题，我这里给出两个比较好的解决方案。第一种

with open("test.txt") as f:
    for line in f:
        #do something with data

这种做法非常的简单。这个代码在打开文件的过程中，不会一次性读取全部文件，而是采用每次读取一行的方式，类似于buffer机制。

当然我们也可以自己去实现一个buffer，然后通过协程的方式操作

def readInChunks(fileObj, chunkSize=4096):
    """
    Lazy function to read a file piece by piece.
    Default chunk size: 4kB.
    """
    while 1:
        data = fileObj.read(chunkSize)
        if not data:
            break
        yield data

f = open('bigFile')
for chuck in readInChunks(f):
    #do_something(chunk)
f.close()

这段代码中我们通过每次读取4k大小的数据，将所有文件读取完。

我对于一个3GB大小的数据进行了读取测试，分别用时如下：

28.54150631145376 s
28.522545760074877 s

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

diyiday

关注关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

在python中如何快速读取存储量大的文件

猫敷雪

07-05

1371

首先我们从以下几个维度来比较不同数据处理包对数据进行处理的优劣。是否拥有丰富的数据处理函数是否读取数据够快是否需要额外设备（例如GPU）的支持但无论这些工具包处理数据的时间多快，在碰到例如10G以上的数据时，都还是会耗费一些时间的，快的可能几十秒，慢的可能几十分钟，然后再进行一些特征抽取等等，快的话也得几十分钟，而此时，为了节省时间消耗，我们就需要将这些中间结果线存储到磁盘上面，而不同格式的存储，带来的差别是巨大的，比如：存储一个大的文件，存成csv格式需要10G，但是存成其它格式可能就只需

参与评论您还未登录，请先登录后发表或查看评论

在pytorch中load超大训练数据

joey周琦

12-21

2705

在pytorch中load超大训练数据 by joeyqzhou 相关代码地址: https://github.com/joeyqzhou/blog/tree/master/pytorch%E4%B8%ADload%E8%B6%85%E5%A4%A7%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE 最简单方式: 1 单线程获取数据到内存中 2 train的过程 for epoch in range(num_epochs): for i in range(i

pytorch构造可迭代的DataLoader，动态流式读取数据源，不担心内存炸裂（pytorch Data学习三）

呆萌的代Ma

07-30

2596

构造迭代读取的Dataloader，首先需要可迭代的DataSet，这一部分详细请参考：pytorch构造可迭代的Dataset——IterableDataset（pytorch Data学习二），下面直接开始封装到DataLoader中文章目录封装IterableDataset到DataLoader1. 一般文本封装方法2. pandas read_xxx封装方法封装IterableDataset到DataLoader 1. 一般文本封装方法由于DataLoader得到的迭代数据都是Tensor格式

使用Python多进程遍历文件夹和文件

hyd_csdn的博客

11-17

2202

多进程遍历文件夹和文件 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2021/11/15 18:29:06 # @Author : kevin # @Site : # @File : Multi_process_File.py # @Software: PyCharm import csv, os import multiprocessing import time # time_start = time.time() # 程序开始时

python多进程读取大文件并统计词频

jaket5219999的博客

04-25

7144

转自： http://www.jianshu.com/p/7665545c970b 支持python2.7 3.5 3.6, 运用multiprocessing模块的Pool 异步进程池，分段读取文件（文件编码由chardet自动判断，需pip install chardet），并统计词频. git clone之后，在test文件夹里，可以通过python wordcounter_multiprocesses.py 测试不同进程数下读取50M文件的速度大小

建议收藏！Python 读取千万级数据自动写入 MySQL 数据库

qq_44885775的博客

07-05

844

Python 读取数据自动写入 MySQL 数据库，这个需求在工作中是非常普遍的，主要涉及到 python 操作数据库，读写更新等，数据库可能是 mongodb、 es，他们的处理思路都是相似的，只需要将操作数据库的语法更换即可。本篇文章会给大家系统的分享千万级数据如何写入到 mysql，分为两个场景，三种方式。...

python大文本文件处理软件_Python文本处理之按行处理大文件的方法

weixin_29690065的博客

01-13

331

python 文本处理，利用python脚本处理任意文件，取希望实现功能： $logprocessor.py 其中> love,w ./readit.p被爱的人不需千军万马，毫不费力，便占据一片领地。使用python删除大文件中的特定行，如何最优代码基于python 2.6。功能已写成函数，用的简单语法，很好懂。新文件文件名自动附加"_back"。 def readKeys(fileN...

Python最快的方式来读取大文本文件（几GB）

08-29

744

我有一个大文本文件（约7 GB）。我正在寻找是否存在阅读大文本文件的最快方法。我一直在阅读有关使用多种方法作为读取chunk-by-chunk以加快进程的过程。例如，effbot建议 # File: readline-example-3.py file = open("sample.txt") while 1: lines = file.readlines(1...

python二进制读取文件快速定位及半个中文字符问题处理

肖永威的专栏

01-26

1759

`'utf-8' codec can't decode byte 0xba in position 0: invalid start byte` 经分析，恍然大悟！`是中文双字节问题！`读取字节流时，遇到中文时，出现截取半个中文的问题。解决方案是抓取字符编码异常，去掉字节流首个字节，也就去掉半个汉字。

文本切割器：高效处理大日志文件的利器

gitblog_09740的博客

10-21

911

文本切割器：高效处理大日志文件的利器【下载地址】文本切割器-大文本.log切割工具本仓库提供了一个用于大文本文件（.log）切割的工具。日志文件在阅读时加载缓慢，传统的切割工具通常不支持多文件切割或切割速度较慢，且无法满足用户自定义的需求。本工具利用Python编程语言实现，能够快速将大文本文件分割成多个小文件，并且...

python读取日志文件

最新发布

12-12

697

关于人工智能大模型的应用，我们可以使用深度学习算法来查找文本之间的差异。例如，我们可以训练一个模型来识别哪些单词在两个文件中出现的次数相同，但它们的位置不同。这段代码首先打开两个文本文件的读模式，然后读取它们的所有行到一个列表中。如果找到不同的行，它会打印出它们的索引、两行的内容以及哪一行不同。为了快速查找两个大文本文件之间的差异，我们可以使用Python编程语言中的内置函数和库。3. 比较两个文件的行数。4. 对于每个不同的行，我们可以使用Python的内置函数`find()`来查找行中的差异。

Python中文件的读取写和二进制文件读取写

wangyudan1018的博客

09-27

2712

文件的作用使用文件的目的：保存数据存放在磁盘把一些存储存放起来，可以让程序下一次执行的时候直接使用，而不必重新制作一份，省时省力在python，使用open函数，可以打开一个已经存在的文件，或者创建一个新文件open(文件名，访问模式) 写数据(write) 格式对象 = open("文件",w) 对象.write（"写入数据"）对象.close ...

读取文本内容_Python读取文本的三种方式对比

weixin_42511206的博客

01-13

320

1.概述Python有三种读取文本的方式，分别是：read()readline()readlines()2.三种方式的优缺点分析2.1 read()最简单的一种方法，一次性读取文件的所有内容放入到一个大字符串中，即存在内存中。优点：方便、简单一次性独读出文件放在一个大字符串中，速度最快缺点：文件过大的时候，占用内存会过大2.2 readline()readline()逐行读取文本，结果是一个lis...

python处理excel文件(xls和xlsx)

weixin_30445169的博客

07-04

611

一、xlrd和xlwt 使用之前需要需要先安装，windows上如果直接在cmd中运行python则需要先执行pip3 install xlrd和pip3 install xlwt，如果使用pycharm则需要在项目的解释器中安装这两个模块，File-Settings-Project:layout-Project Interpreter，点击右侧界面的＋号，然后搜索xlrd和xlwt，...

python创建百万个文件_Python：读取数百万个文件并创建

weixin_33218612的博客

01-29

205

好的，我从以下几点开始：这不是一个经常要做的过程，我不在乎过一段时间(但我需要它完成，不需要几天)，而且必须是Python语言。在我需要读取200万个html文件(4kb)并进行检查，只需一次，我就可以用python创建一个更快的程序(我今天学习python:/)path = './files/*.htm'files = glob.glob(path)writer = open('myfile.t...

fread python有没有_在python3中如何把文本转换为二进制

weixin_39789327的博客

01-15

141

在python3中把文本转换为二进制的方法：首先修改dirroot为要读取的文件夹的路径；然后遍历所有的文件夹，读取txt文件；最后更改newdirroot为新的目录路径，程序运行完以后会生成和原来一样的目录和dat的二进制文件。当读取读大量数据的时候，为了加快读取的速度，需要将文本文件转为二进制文件。python代码如下：#coding:utf-8#!/bin/pythonimportosi...

python合并多个excel的某些字段_python合并多个excel文件的示例

weixin_39760967的博客

11-29

330

工作中经常遇到要将十几个Excel（不管是xls、或者是CSV）合并到同一个文件中去，手工一个一个复制是不可能的，此时就轮到Python出马了主要是利用for循环，读取每一个文件，作为df，然后再通过list的append加在一起，然后再通过pd.concat拼接起来，最后将文件读到CSV中去import osimport pandas as pdimport numpy as npdir = "...