Seaborn - 统计估计

  • 简述

    在大多数情况下,我们处理数据整体分布的估计。但是当涉及到集中趋势估计时,我们需要一种特定的方式来总结分布。均值和中位数是估计分布集中趋势的常用技术。
    在我们在上一节中学习的所有图中,我们对整个分布进行了可视化。现在,让我们讨论一下可以用来估计分布集中趋势的图。
  • 条形图

    barplot()显示分类变量和连续变量之间的关系。数据以矩形条表示,其中条的长度代表该类别中数据的比例。
    条形图表示集中趋势的估计。让我们使用“泰坦尼克号”数据集来学习条形图。

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('titanic')
    sb.barplot(x = "sex", y = "survived", hue = "class", data = df)
    plt.show()
    

    输出

    条形图
    在上面的例子中,我们可以看到每个班级中男性和女性的平均存活人数。从图中我们可以了解到,存活下来的女性人数多于男性。在男性和女性中,更多的幸存者来自头等舱。
    barplot 中的一个特殊情况是显示每个类别中的观察数,而不是计算第二个变量的统计量。为此,我们使用countplot().

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('titanic')
    sb.countplot(x = " class ", data = df, palette = "Blues");
    plt.show()
    

    输出

    条状图
    情节说,三等舱的乘客人数高于一等和二等舱。
  • 点图

    点图与条形图相同,但样式不同。估计值不是完整的条形图,而是由另一个轴上某个高度处的点表示。

    例子

    
    import pandas as pd
    import seaborn as sb
    from matplotlib import pyplot as plt
    df = sb.load_dataset('titanic')
    sb.pointplot(x = "sex", y = "survived", hue = "class", data = df)
    plt.show()
    

    输出

    z符号