python pandas 組內排序、單組排序、標號

來源:互聯網
上載者:User

摘要:本文主要是講解一下,如何進行排序。分為兩種情況,不分組進行排序和組內進行排序。什麼意思呢。具體來說,我舉個栗子。

****注意****

如果只是單純想對某一列進行排序,而不進行打序號的話直接使用.sort_values就可以了。下文是關於如何把序號也打上的

————————————————————————————

我們有一個資料集如下:


我們下面想進行兩種排序。先說第一種比較簡單的也是很常用的,簡單的對某一列進行排序然後添加一列序號。

例如,我們隊comment_num這一列進行從大到小的排序,然後給出序號。如下圖:


可以看到,sort_num這一列就是我們隊comment_num的排序。如何?呢。很簡單,代碼如下(資料集為data):

data['sort_num']=data['comment_num'].rank(ascending=0,method='dense')
這裡,我們用到了兩個參數,第一個很好理解 ascending,就是選擇是升序還是降序排列。

另外一個參數method,這個參數很重要。我下面詳細講一下。

有時候,我們排序的時候會遇到相同大小,這個時候怎麼處理呢。method其實就是讓我們選擇如何處理。

有以下幾種處理方案:

第一種情況,如果出現相等,則序號一樣,之後序號照常遞增。這種情況就是上圖的,我們看到comment_num等於4的有2個,序號為1。comment_num等於3的時候,序號為2,這個叫做正常按1依次遞增。這和時候method='dense'


第二種情況,如果出現相等,則取最先出現的值序號為“最小”,其他相同值依次按1遞增,如果把上面代碼method='first',就是實現這種效果,效果如下圖:

data['sort_num']=data['comment_num'].rank(ascending=0,method='first')

comment_num中,4最大,並且第1行中的4最先出現,故序號為1。


第三種情況和第四種情況比較複雜。文字不好說明,下面直接放代碼和效果。

當method='min'時

data['sort_num']=data['comment_num'].rank(ascending=0,method='min')



當method='max'時

data['sort_num']=data['comment_num'].rank(ascending=0,method='max')


--------------------------------分割線--------------------------------------


上面只是某一列的排序,下面是組內排序。什麼是意思。同樣看下面的例子


假如,我想對cate為7的comment_num進行排序,同樣也對,cate為8的comment_num進行排序。也就是說,對comment_num排序的時候,只考慮相同的cate,這個就是對組內進行排序。實現的效果應該如下圖:



實現代碼也很簡單。

data['group_sort']=data['comment_num'].groupby(data['cate']).rank(ascending=0,method='dense')


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.