Python - 数据科学 Pandas
-
简述
Pandas 是一个开源 Python 库,用于使用其强大的数据结构进行高性能数据操作和数据分析。带有 pandas 的 Python 被用于各种学术和商业领域,包括金融、经济学、统计学、广告、网络分析等。使用 Pandas,我们可以完成数据处理和分析的五个典型步骤,无论数据的来源如何——加载、组织、操作、建模和分析数据。以下是 Pandas 的一些重要功能,专门用于数据处理和数据分析工作。 -
Pandas 的主要特点
- 具有默认和自定义索引的快速高效的 DataFrame 对象。
- 用于将数据从不同文件格式加载到内存数据对象中的工具。
- 数据对齐和缺失数据的综合处理。
- 日期集的重塑和旋转。
- 大型数据集的基于标签的切片、索引和子集化。
- 可以删除或插入数据结构中的列。
- 按数据分组以进行聚合和转换。
- 高性能的数据合并和连接。
- 时间序列功能。
Pandas 处理以下两种数据结构 -- Series
- DataFrame
这些数据结构建立在 Numpy 数组之上,使其快速高效。 -
尺寸和说明
考虑这些数据结构的最佳方式是,高维数据结构是其低维数据结构的容器。比如DataFrame是Series的容器,Panel是DataFrame的容器。数据结构 方面 描述 Series 1 一维标记的同构数组,大小不可变。 DataFrame 2 具有潜在异构类型列的通用 2D 标记、大小可变的表格结构。 DataFrame 应用广泛,是最重要的数据结构。 -
Series
系列是具有同质数据的一维数组结构。例如,以下系列是整数 10、23、56、……的集合10 23 56 17 52 61 73 90 26 72 系列要点
- 同质数据
- 大小不可变
- 数据可变的值
-
DataFrame
DataFrame 是一个包含异构数据的二维数组。例如,Name Age Gender Rating Steve 32 Male 3.45 Lia 28 Female 4.6 Vin 45 Male 3.9 Katie 38 Female 2.78 该表表示组织的销售团队的数据及其整体绩效评级。数据以行和列的形式表示。每列代表一个属性,每一行代表一个人。 -
列的数据类型
四列的数据类型如下 -Column Type Name String Age Integer Gender String Rating Float 数据框关键点
- 异构数据
- 大小可变
- 数据可变
在接下来的章节中,我们将看到很多关于在数据科学工作中使用 python 的 pandas 库的示例。