加入收藏 | 设为首页 | 会员中心 | 我要投稿 湘西站长网 (https://www.0743zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

加速数据分析,这10个小技巧好用到哭

发布时间:2019-08-23 18:45:59 所属栏目:评测 来源:读芯术
导读:划重点!!!本文列举了一些使用Python和Jupyter Notebook的技巧,讨论了如何轻松分析数据以及如何进行格式化编码、输出和调试等操作。 在编程领域,有时一个小技巧就能节省大量时间,甚至能起到救命的效果。这些必杀技往往能在未来的数据分析中发挥重大作用
副标题[/!--empirenews.page--]

划重点!!!本文列举了一些使用Python和Jupyter Notebook的技巧,讨论了如何轻松分析数据以及如何进行格式化编码、输出和调试等操作。

加速数据分析,这10个小技巧好用到哭

在编程领域,有时一个小技巧就能节省大量时间,甚至能起到救命的效果。这些“必杀技”往往能在未来的数据分析中发挥重大作用。

1. 分析Pandas数据框架

Profiling(分析)是一个帮助理解数据的过程,Pandas Profiling(数据预览分析)作为一个python工具包,就是用来帮助理解数据的。该工具能够简单快速地对熊猫数据框架进行探索性数据分析。pandas df.describe()和df.info()functions通常是EDA过程的第一步。然而,这个步骤只提供一个基本的数据预览,对大型数据集帮助不大。另外,Pandas Profiling功能使用df.profile_report()扩展了熊猫数据框架,可以快速进行数据分析。该功能仅用一行代码就可以显示很多信息,这也可以应用在交互式的HTML报告中。

对于给定数据集,数据预览分析包会处理以下数据:

加速数据分析,这10个小技巧好用到哭

Pandas Profiling工具包计算的统计数据

安装

  1. pip install pandas-profiling 
  2. or 
  3. conda install -c anaconda pandas-profiling 

使用

用古老的大数据集来演示python profiler的功能。

  1. #importing the necessary packages 
  2. import pandas as pd 
  3. import pandas_profiling 
  4. # Depreciated: pre 2.0.0 version 
  5. df = pd.read_csv('titanic/train.csv') 
  6. pandas_profiling.ProfileReport(df) 

最近,Pandas-Profiling发布了一个重要的2.0.0升级版本。事实上,该版本对语法作了一点改变,这个功能也已经包含在熊猫数据框架中了,报告也变得更加全面。以下是最新的语法用法:

使用

要在Jupyter笔记本中显示报告,并运行:

  1. #Pandas-Profiling 2.0.0 
  2. df.profile_report() 

这一行代码就是用户在Jupyter笔记本中显示数据分析报告所需的全部内容。显示的报告非常详细,必要时还包括图表。

加速数据分析,这10个小技巧好用到哭

通过下列代码用户还可以将该报告导出到交互式HTML文件中:

  1. profile = df.profile_report(title='Pandas Profiling Report') 
  2. profile.to_file(outputfile="Titanic data profiling.html") 
加速数据分析,这10个小技巧好用到哭

更多详细信息和示例:https://pandas-profiling.github.io/pandas-profiling/docs/

2. 增强Pandas plots的互动性

Pandas有一个内置的 .plot() 功能,是数据框架类的一部分。然而,该功能不尽人意的地方在于呈现的可视化不是交互式的。相反,用pandas.DataFrame.plot()功能绘制图表就很容易。如果不对代码做重大修改,可以绘制出像熊猫图表一样的交互式图表吗?答案是可以的,Cufflinks库能够帮助做到这一点。

Cufflinks库将plotly的功能与Pandas的灵活性结合起来,使绘图简单化。现在就来看看如何安装这个库,并让它在pandas上运行。

安装

  1. pip install plotly # Plotly is a pre-requisite before installing cufflinks 
  2. pip install cufflinks 

使用

  1. #importing Pandas  
  2. import pandas as pd 
  3. #importing plotly and cufflinks in offline mode 
  4. import cufflinks as cf 
  5. import plotly.offline 
  6. cf.go_offline() 
  7. cf.set_config_file(offline=False, world_readable=True) 

现在来看看大数据集的魔力

  1. df.iplot() 
加速数据分析,这10个小技巧好用到哭
加速数据分析,这10个小技巧好用到哭
  1. df.iplot() 与 df.plot() 

右边的可视化显示的是静态图表,而左边则是交互式图表,更为详细。这些图表在语法上都没有作出重大改变。

更多示例:https://github.com/santosjorge/cufflinks/blob/master/Cufflinks%20Tutorial%20-%20Pandas%20Like.ipynb

3. 少许魔法

魔法命令(Magic commands)是Jupyter笔记本中的一组便捷功能,旨在解决标准数据分析中的一些常见问题。在 %lsmagic的帮助下,用户可以看到所有可用的魔法功能。

加速数据分析,这10个小技巧好用到哭

所有可用魔法功能的清单

魔法命令有两种:行魔法,即以单个%字符为前缀,在单行输入上操作;单元格魔法,即以%%为前缀,在多行输入上操作。如果设置为1,则无需键入初始%即可调用魔术功能。

一起来看看两种魔法命令在常见数据分析任务中的应用:

  • % pastebin

%pastebin将代码上传到Pastebin并返回url地址。Pastebin属于在线内容托管服务,在这里,用户可以存储如源代码片段等纯文本,然后与他人共享网址。事实上,Github的要点也类似于pastebin,尽管存在版权限制。

(编辑:湘西站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读