摘要:本文主要是講解一下,如何進行排序。分為兩種情況,不分組進行排序和組內進行排序。什麼意思呢。具體來說,我舉個栗子。
****注意****
如果只是單純想對某一列進行排序,而不進行打序號的話直接使用.sort_values就可以了。下文是關於如何把序號也打上的
————————————————————————————
我們有一個資料集如下:
我們下面想進行兩種排序。先說第一種比較簡單的也是很常用的,簡單的對某一列進行排序然後添加一列序號。
例如,我們隊comment_num這一列進行從大到小的排序,然後給出序號。如下圖:
可以看到,sort_num這一列就是我們隊comment_num的排序。如何?呢。很簡單,代碼如下(資料集為data):
data['sort_num']=data['comment_num'].rank(ascending=0,method='dense')
這裡,我們用到了兩個參數,第一個很好理解 ascending,就是選擇是升序還是降序排列。
另外一個參數method,這個參數很重要。我下面詳細講一下。
有時候,我們排序的時候會遇到相同大小,這個時候怎麼處理呢。method其實就是讓我們選擇如何處理。
有以下幾種處理方案:
第一種情況,如果出現相等,則序號一樣,之後序號照常遞增。這種情況就是上圖的,我們看到comment_num等於4的有2個,序號為1。comment_num等於3的時候,序號為2,這個叫做正常按1依次遞增。這和時候method='dense'
第二種情況,如果出現相等,則取最先出現的值序號為“最小”,其他相同值依次按1遞增,如果把上面代碼method='first',就是實現這種效果,效果如下圖:
data['sort_num']=data['comment_num'].rank(ascending=0,method='first')
comment_num中,4最大,並且第1行中的4最先出現,故序號為1。
第三種情況和第四種情況比較複雜。文字不好說明,下面直接放代碼和效果。
當method='min'時
data['sort_num']=data['comment_num'].rank(ascending=0,method='min')
當method='max'時
data['sort_num']=data['comment_num'].rank(ascending=0,method='max')
--------------------------------分割線--------------------------------------
上面只是某一列的排序,下面是組內排序。什麼是意思。同樣看下面的例子
假如,我想對cate為7的comment_num進行排序,同樣也對,cate為8的comment_num進行排序。也就是說,對comment_num排序的時候,只考慮相同的cate,這個就是對組內進行排序。實現的效果應該如下圖:
實現代碼也很簡單。
data['group_sort']=data['comment_num'].groupby(data['cate']).rank(ascending=0,method='dense')