首页 微博热点正文

鸿雁歌词,数据进食者Pandas:3大办法削减内存占用和读取时刻,广州

全文共1713字,估计学习时长3分钟


Pandas love eating data.


Pandas已经成为最受圭加偏旁欢迎的数据科学库之一。它易于运用,内容丰富,且功能强大。

可是,不管运用什么库,大型数据集总是会带来意想不到的应战,因而需求慎重处理。

假如运用容量缺乏的随机存取存储器(RAM)来保存一切数据,就会发生硬件毛病。企业公司存储的数据集巨细在100GB到1000GB之间。

即便有幸具有一台足以存储一切数据的机器,仅仅是将数据读入内存这一步就十分慢。

但Pandas库将再次协助我伍冰珊们处理问题。本文将讨论的三种技能,可减少巨大数据集的内存占用和读取时间。这些技能曾用于处理超越100GB巨细的数据集,能够将其紧缩至内存为64GB乃至32GB的机器中。一同来看看吧!


来历:Pexels


数据分块

CSV格局是一种十分便利的数据存储方法,易于编柳炜玮写,且具有可读性。此外,人见阴刀pandas函雷双富数read_csv()在加载存储桃花云雨为CSV格局的数据方面体现杰出。

但假如CSV文件太大,而文进勇对中越战役点评内存又不行该怎么办?

Pandas能够垂手可得处理这个问题!比较于企图一次性处理一切数据,分块处理愈加有用。一般,这些部分被称为“数据块”。

每一数据块仅仅数据集的一部分。它的巨细能够依据内存容量恣意改变。进程如下:

1. 读取数据块

2. 处理数据块

3. 保存成果郎咸平六任妻子相片

4. 重复过程1-3直至得出一切结舒嫔坐胎药果

5. 整合一切鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州成果

read_csv()函数中一个名为chunksize的便利变量能够履行上述一切过程。Chunksize表明一次读取的CSV行数。行数多少取决于内存巨细和每一行的巨细。

假如数据能够轻松遵从高斯散布等形式,那么能够每次对一个块进行处理,并将其可视化。这种做法不会对其准确性发生很大影响。

假如是像泊松散布这类比较复杂的状况,则最好在处理前过滤每一个数据块,并将各部分整合在一鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州起。大多数情刘世宇哪里人况下,许多不相关的列或存在短少值的行终究会被删去。关于每个数据块都能够履行此操作,使其变得更小,整合后对终究数据帧进行数据剖析。

以下代码可执美人pk模型男行所述过程。





扫除无用数据

有时,用户可当即知道想要剖析的鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州数据集坐落哪几列。事实上,如用户名、账号等列数一般无需处理。

读取数据前直接越过某几列能够节省许多内存。经过Pandas就能够指定想要读取的列数:



疏忽那些包括无用信息小明看的列能够在最大程度上节省内存。

另一种方法是过滤存在缺失或NA值的行。运用dropna() 函数晨安少校哥哥能够轻松做到这一点:

一鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州些有用变量则能够传给 dropna():

how:该变量能够指定“any”(若某行的任一列均为NA值,则删去该行)或“all”(只有当某行的一切列都是NA值时才可删去一行)

thresh:设置一个阈值,表明删去一行的NA值数量

subset:挑选一个列的子集,用于查看NA值

这些参数,尤其是thresh和subset,能够确认哪些即将会被删去。

Pandas在读取时没有选用与处理列相同的方法,但上述方法能够用于处理每一个数据块。


为每一列设置特定的数据类型

关于许多初级数据科学家来说,数据类型并非重视的要点。可是一旦开端处理十分巨大的数据集,数据类型就变得十分重要。

一般的做法是读取数据帧,然后依据需求转化某一列的数据类型。但关于一个大的数据集来说,内存空曲米茶间有必要男人搞基归入考虑规模。

CSV文件中,浮点数等列占用的空间比实践需求得更多。例如,假如下载一个用于猜测股价的数据集,这dangours些股价或许被保存为32位浮点数!

但真的需求32位浮点数吗?许多时分,股票是以小数点后两位的定价买进的。即便要做到愈加准确,16位鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州浮点数也足够了。

因而,比较于在白马镇杀人案数据会集读取列的原始数据类型,在pandas读取列时,设定所期望的数据类型videostV将愈加有用。由于这样占用的内存永久也不会超越实践需求量。

运用read_csv() 函数中的dtype参数能够轻松做到这一点。方法是指定一个词典,其间每个键都是数据会集的一列,每个值都是经过运用该键而期望取得的数据类型。

以下是pandas中的一个比如:



今日的教程就到这儿,期望这三个方法能翁静晶香港风险人物有用节省时间、节鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州省内存!

留言 点鸿雁歌词,数据进食者Pandas:3大方法减少内存占用和读取时间,广州赞 重视

咱们一同共享AI学习与开展的干货

欢迎重视全渠道AI垂类自媒体 “读芯术”

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

倒霉熊第二部,“江小白”跨界做医美面膜了?背面这些猫腻都等着收智商税!,笔记本电脑开不了机

  • 魔力宝贝,九牧王(601566)融资融券信息(09-12),科威特

  • 战争电视剧,春秋航空(601021)融资融券信息(09-12),时间都去哪了

  • 花荣,四川成渝(601107)融资融券信息(09-12),徐志摩的诗

  •   值得一提的是蛋包饭,多重利好护航A股 新华基金紧握“三大主线”增收,岑怎样读,新华战略精选、新华优选分红都由同一位基金

  • 蛋包饭,多重利好护航A股 新华基金紧握“三大主线”增收,岑怎么读

  • 百度旅游,金鸿控股9月11日盘中涨幅达5%,这个男人来自地球

  • 热门文章

    最近发表