Python - 数据科学 Pandas

  • 简述

    Pandas 是一个开源 Python 库,用于使用其强大的数据结构进行高性能数据操作和数据分析。带有 pandas 的 Python 被用于各种学术和商业领域,包括金融、经济学、统计学、广告、网络分析等。使用 Pandas,我们可以完成数据处理和分析的五个典型步骤,无论数据的来源如何——加载、组织、操作、建模和分析数据。
    以下是 Pandas 的一些重要功能,专门用于数据处理和数据分析工作。
  • Pandas 的主要特点

    • 具有默认和自定义索引的快速高效的 DataFrame 对象。
    • 用于将数据从不同文件格式加载到内存数据对象中的工具。
    • 数据对齐和缺失数据的综合处理。
    • 日期集的重塑和旋转。
    • 大型数据集的基于标签的切片、索引和子集化。
    • 可以删除或插入数据结构中的列。
    • 按数据分组以进行聚合和转换。
    • 高性能的数据合并和连接。
    • 时间序列功能。
    Pandas 处理以下两种数据结构 -
    • Series
    • DataFrame
    这些数据结构建立在 Numpy 数组之上,使其快速高效。
  • 尺寸和说明

    考虑这些数据结构的最佳方式是,高维数据结构是其低维数据​​结构的容器。比如DataFrame是Series的容器,Panel是DataFrame的容器。
    数据结构 方面 描述
    Series 1 一维标记的同构数组,大小不可变。
    DataFrame 2 具有潜在异构类型列的通用 2D 标记、大小可变的表格结构。
    DataFrame 应用广泛,是最重要的数据结构。
  • Series

    系列是具有同质数据的一维数组结构。例如,以下系列是整数 10、23、56、……的集合
    10 23 56 17 52 61 73 90 26 72

    系列要点

    • 同质数据
    • 大小不可变
    • 数据可变的值
  • DataFrame

    DataFrame 是一个包含异构数据的二维数组。例如,
    Name Age Gender Rating
    Steve 32 Male 3.45
    Lia 28 Female 4.6
    Vin 45 Male 3.9
    Katie 38 Female 2.78
    该表表示组织的销售团队的数据及其整体绩效评级。数据以行和列的形式表示。每列代表一个属性,每一行代表一个人。
  • 列的数据类型

    四列的数据类型如下 -
    Column Type
    Name String
    Age Integer
    Gender String
    Rating Float

    数据框关键点

    • 异构数据
    • 大小可变
    • 数据可变
    在接下来的章节中,我们将看到很多关于在数据科学工作中使用 python 的 pandas 库的示例。