Python:matplotlib 和 Seaborn 之折线图 (三十七)

折线图

折线图是一种很常见的图形,用于描绘一个数字变量相对于第二个变量的值的变化趋势。在散点图中,所有数据点都会绘制出来,而在折线图中,每个唯一 x 值或 x 值的分箱仅绘制一个点(就像直方图一样)。如果 x 分箱中有多个观测值,那么该点在折线图中绘制的 y 值将为该数据点在分箱中的摘要统计值(例如均值或中值)。绘制的点用线条连接起来,表示 x 值的序列或相连特性。

如果 x 变量表示时间,则数据折线图通常称之为时间序列图形。通常,在每个时间段内,我们只有一个观测值,例如股票图表或汇率图表。虽然 seaborn 函数 tsplot 可以用于时间序列数据,但是它很特殊(撰写本页面时为 seaborn 0.8),计划会出现很大的变化。

我们将使用 Matplotlib 的 errorbar 函数对数据进行处理,以便使数据变成必要格式。

plt.errorbar(data = df, x = 'num_var1', y = 'num_var2')

file

如果我们直接将 dataframe 传入该函数中,而不考虑数据结构,那么可能会遇到上面的混乱情况。该函数将所有数据点都绘制成一个线条,将 dataframe 第一行的值与最后一行的值相连。为了按照预期方式创建折线图,我们需要对数据进行额外的处理,以总结数据。

# set bin edges, compute centers
xbin_edges = np.arange(0.5, df['num_var1'].max()+0.25, 0.25)
xbin_centers = (xbin_edges + 0.25/2)[:-1]

# compute statistics in each bin
data_xbins = pd.cut(df['num_var1'], xbin_edges, right = False, include_lowest = True)
y_means = df['num_var2'].groupby(data_xbins).mean()
y_sems = df['num_var2'].groupby(data_xbins).sem()

# plot the summarized data
plt.errorbar(x = xbin_centers, y = y_means, yerr = y_sems)

因为 x 变量 ('num_var1') 是连续的,我们首先设置数据分组采用的分箱。除了常见的边缘之外,还会计算每个分箱的中心,以便稍后绘制出来。对于每个分箱中的数据点,我们都计算均值和均值的标准差。注意这里的 cut 函数调用和上一部分的不一样,因为我们不需要计算每个点的权重。

file

上述数据摘要的一个有趣的方面是,随着 x 值的增大,均值的不确定性也会增大。但是对于两个最大的数据点,没有误差条。从默认的 errorbar 图形(或下面的散点图)可以看出,这是因为最后两个分箱分别只有一个数据点。

其他版本

你还可以通过使用 pandas 的 rolling 方法以滚动窗口的形式计算摘要统计值,而不是通过固定分箱计算摘要统计值。因为滚动窗口将通过 dataframe 的序列行进行计算,我们应该使用 sort_values 先使 x 值按升序排序。

# compute statistics in a rolling window
df_window = df.sort_values('num_var1').rolling(15)
x_winmean = df_window.mean()['num_var1']
y_median = df_window.median()['num_var2']
y_q1 = df_window.quantile(.25)['num_var2']
y_q3 = df_window.quantile(.75)['num_var2']

# plot the summarized data
base_color = sb.color_palette()[0]
line_color = sb.color_palette('dark')[0]
plt.scatter(data = df, x = 'num_var1', y = 'num_var2')
plt.errorbar(x = x_winmean, y = y_median, c = line_color)
plt.errorbar(x = x_winmean, y = y_q1, c = line_color, linestyle = '--')
plt.errorbar(x = x_winmean, y = y_q3, c = line_color, linestyle = '--')
plt.savefig('L4_C13_Lineplot3.png')

注意,在绘制图形时,我们可以绘制多条线。如果挨个地调用多个 Matplotlib 函数,所有函数都会在相同的坐标轴上绘制。我们将绘制三个中央四分位数,并放在散点图上方,而不是绘制均值和误差条。

file

为者常成,行者常至