利用Python繪製資料的瀑布圖的教程

來源:互聯網
上載者:User
介紹

對於繪製某些類型的資料來說,瀑布圖是一種十分有用的工具。不足為奇的是,我們可以使用Pandas和matplotlib建立一個可重複的瀑布圖。

在往下進行之前,我想先告訴大家我指代的是哪種類型的圖表。我將建立一個維基百科文章中描述的2D瀑布圖。

這種圖表的一個典型的用處是顯示開始值和結束值之間起“橋樑”作用的+和-的值。因為這個原因,財務人員有時會將其稱為一個橋樑。跟我之前所採用的其他例子相似,這種類型的繪圖在Excel中不容易產生,當然肯定有產生它的方法,但是不容易記住。

關於瀑布圖需要記住的關鍵點是:它本質上是一個堆疊在一起的橫條圖,不過特殊的一點是,它有一個空白底欄,所以頂部欄會“懸浮”在空中。那麼,讓我們開始吧。
建立圖表

首先,執行標準的輸入,並確保IPython能顯示matplot圖。

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt %matplotlib inline

設定我們想畫出瀑布圖的資料,並將其載入到資料幀(DataFrame)中。

資料需要以你的起始值開始,但是你需要給出最終的總數。我們將在下面計算它。

index = ['sales','returns','credit fees','rebates','late charges','shipping']data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]}trans = pd.DataFrame(data=data,index=index)

我使用了IPython中便捷的display函數來更簡單地控制我要顯示的內容。

from IPython.display import displaydisplay(trans)

瀑布圖的最大技巧是計算出底部堆疊橫條圖的內容。有關這一點,我從stackoverflow上的討論中學到很多。

首先,我們得到累積和。

display(trans.amount.cumsum())sales      350000returns     320000credit fees   312500rebates     287500late charges  382500shipping    375500Name: amount, dtype: int64

這看起來不錯,但我們需要將一個地方的資料轉移到右邊。

blank=trans.amount.cumsum().shift(1).fillna(0)display(blank) sales        0returns     350000credit fees   320000rebates     312500late charges  287500shipping    382500Name: amount, dtype: float64

我們需要向trans和blank資料幀中添加一個淨總量。

total = trans.sum().amounttrans.loc["net"] = totalblank.loc["net"] = totaldisplay(trans)display(blank)

sales        0returns     350000credit fees   320000rebates     312500late charges  287500shipping    382500net       375500Name: amount, dtype: float64

建立我們用來顯示變化的步驟。

step = blank.reset_index(drop=True).repeat(3).shift(-1)step[1::3] = np.nandisplay(step) 0     00    NaN0  3500001  3500001    NaN1  3200002  3200002    NaN2  3125003  3125003    NaN3  2875004  2875004    NaN4  3825005  3825005    NaN5  3755006  3755006    NaN6    NaNName: amount, dtype: float64

對於“net”行,為了不使堆疊加倍,我們需要確保blank值為0。

blank.loc["net"] = 0

然後,將其畫圖,看一下什麼樣子。

my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")my_plot.plot(step.index, step.values,'k')

看起來相當不錯,但是讓我們試著格式化Y軸,以使其更具有可讀性。為此,我們使用FuncFormatter和一些Python2.7+的文法來截斷小數並向格式中添加一個逗號。

def money(x, pos):  'The two args are the value and tick position'  return "${:,.0f}".format(x) from matplotlib.ticker import FuncFormatterformatter = FuncFormatter(money)

然後,將其組合在一起。

my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")my_plot.plot(step.index, step.values,'k')my_plot.set_xlabel("Transaction Types")my_plot.yaxis.set_major_formatter(formatter)

完整指令碼

基本圖形能夠正常工作,但是我想添加一些標籤,並做一些小的格式修改。下面是我最終的指令碼:

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.ticker import FuncFormatter #Use python 2.7+ syntax to format currencydef money(x, pos):  'The two args are the value and tick position'  return "${:,.0f}".format(x)formatter = FuncFormatter(money) #Data to plot. Do not include a total, it will be calculatedindex = ['sales','returns','credit fees','rebates','late charges','shipping']data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} #Store data and create a blank series to use for the waterfalltrans = pd.DataFrame(data=data,index=index)blank = trans.amount.cumsum().shift(1).fillna(0) #Get the net total number for the final element in the waterfalltotal = trans.sum().amounttrans.loc["net"]= totalblank.loc["net"] = total #The steps graphically show the levels as well as used for label placementstep = blank.reset_index(drop=True).repeat(3).shift(-1)step[1::3] = np.nan #When plotting the last element, we want to show the full bar,#Set the blank to 0blank.loc["net"] = 0 #Plot and labelmy_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(10, 5), title="2014 Sales Waterfall")my_plot.plot(step.index, step.values,'k')my_plot.set_xlabel("Transaction Types") #Format the axis for dollarsmy_plot.yaxis.set_major_formatter(formatter) #Get the y-axis position for the labelsy_height = trans.amount.cumsum().shift(1).fillna(0) #Get an offset so labels don't sit right on top of the barmax = trans.max()neg_offset = max / 25pos_offset = max / 50plot_offset = int(max / 15) #Start label looploop = 0for index, row in trans.iterrows():  # For the last item in the list, we don't want to double count  if row['amount'] == total:    y = y_height[loop]  else:    y = y_height[loop] + row['amount']  # Determine if we want a neg or pos offset  if row['amount'] > 0:    y += pos_offset  else:    y -= neg_offset  my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center")  loop+=1 #Scale up the y axis so there is room for the labelsmy_plot.set_ylim(0,blank.max()+int(plot_offset))#Rotate the labelsmy_plot.set_xticklabels(trans.index,rotation=0)my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight')

運行該指令碼將產生下面這個漂亮的圖表:

最後的想法

如果你之前不熟悉瀑布圖,希望這個樣本能夠向你展示它到底是多麼有用。我想,可能一些人會覺得對於一個圖表來說需要這麼多的指令碼代碼有點糟糕。在某些方面,我同意這種想法。如果你僅僅只是做一個瀑布圖,而以後不會再碰它,那麼你還是繼續用Excel中的方法吧。

然而,如果瀑布圖真的很有用,並且你需要將它複製給100個客戶,將會怎麼樣呢?接下來你將要怎麼做呢?此時使用Excel將會是一個挑戰,而使用本文中的指令碼來建立100個不同的表格將相當容易。再次說明,這一程式的真正價值在於,當你需要擴充這個解決方案時,它能夠便於你建立一個易於複製的程式。

我真的很喜歡學習更多Pandas、matplotlib和IPothon的知識。我很高興這種方法能夠幫到你,並希望其他人也可以從中學習到一些知識,並將這一課所學應用到他們的日常工作中。

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.