Seaborn - 导入数据集和库

  • 简述

    在本章中,我们将讨论如何导入数据集和库。让我们从了解如何导入库开始。
  • 导入库

    让我们从导入 Pandas 开始,这是一个用于管理关系(表格格式)数据集的出色库。Seaborn 在处理 DataFrames 时非常方便,DataFrames 是用于数据分析的最广泛使用的数据结构。
    以下命令将帮助您导入 Pandas -
    
    # Pandas for managing datasets
    import pandas as pd
    
    现在,让我们导入 Matplotlib 库,它可以帮助我们自定义绘图。
    
    # Matplotlib for additional customization
    from matplotlib import pyplot as plt
    
    我们将使用以下命令导入 Seaborn 库 -
    
    # Seaborn for plotting and styling
    import seaborn as sb
    
  • 导入数据集

    我们已经导入了所需的库。在本节中,我们将了解如何导入所需的数据集。
    Seaborn 在库中附带了一些重要的数据集。安装 Seaborn 后,数据集会自动下载。
    您可以使用任何这些数据集进行学习。借助以下功能,您可以加载所需的数据集
    
    load_dataset()
    
  • 将数据导入为 Pandas DataFrame

    在本节中,我们将导入一个数据集。该数据集默认加载为 Pandas DataFrame。如果 Pandas DataFrame 中有任何函数,则它适用于此 DataFrame。
    以下代码行将帮助您导入数据集 -
    
    # Seaborn for plotting and styling
    import seaborn as sb
    df = sb.load_dataset('tips')
    print df.head()
    
    上面的代码行将生成以下输出 -
    
       total_bill  tip   sex    smoker day  time   size
    0    16.99    1.01   Female  No    Sun  Dinner  2
    1    10.34    1.66   Male    No    Sun  Dinner  3
    2    21.01    3.50   Male    No    Sun  Dinner  3
    3    23.68    3.31   Male    No    Sun  Dinner  2
    4    24.59    3.61   Female  No    Sun  Dinner  4
    
    要查看 Seaborn 库中所有可用的数据集,可以使用以下命令和get_dataset_names()功能如下图 -
    
    import seaborn as sb
    print sb.get_dataset_names()
    
    上面的代码行将返回可用的数据集列表,作为以下输出
    
    [u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', 
    u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', 
    u'titanic']
    
    DataFrames以矩形网格的形式存储数据,通过该网格可以轻松查看数据。矩形网格的每一行都包含一个实例的值,网格的每一列都是一个向量,其中包含特定变量的数据。这意味着 DataFrame 的行不需要包含相同数据类型的值,它们可以是数字、字符、逻辑等。Python 的 DataFrames 来自 Pandas 库,它们被定义为二维标记数据结构可能有不同类型的列。
    有关 DataFrame 的更多详细信息,请访问我们的 pandas 教程。