分享python資料統計的一些小技巧

來源:互聯網
上載者:User
最近在用python做資料統計,這裡總結了一些最近使用時尋找和總結的一些小技巧,希望能協助在做這方面時的一些童鞋。有些技巧是很平常的用法,平時我們沒有注意,但是在特定情境,這些小方法還是能帶來很大的協助。

1.在字典中將鍵映射到多個值上面

{'b': [4, 5, 6], 'a': [1, 2, 3]}

有時候我們在統計相同key值的時候,希望把所有相同key的條目添加到以key為鍵的一個字典中,然後再進行各種操作,這時候我們就可以使用下面的代碼進行操作:

from collections import defaultdictd = defaultdict(list)print(d)d['a'].append(1)d['a'].append(2)d['a'].append(3)d['b'].append(4)d['b'].append(5)d['b'].append(6)print(d)print(d.get("a"))print(d.keys())print([d.get(i) for i in d])

這裡是使用了collections中的方法,這裡面還擁有很多有用的方法,我們有時間在繼續進行深入瞭解。

上面代碼運行結果:

defaultdict(, {})defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]})[1, 2, 3]dict_keys(['b', 'a'])[[4, 5, 6], [1, 2, 3]]

我們將資料填入之後,相當於進行快速分組,然後遍曆每個組就可以統計一些我們需要的資料。

2.迅速轉換字典索引值對

data = {...}zip(data.values(), data.keys())

data是我們的格式資料,使用zip後進行快速索引值轉換,然後可以使用max,min之類函數進行資料操作。

3.通過公用鍵對字典進行排序

from operator import itemgetterdata = [  {'name': "bran", "uid": 101},  {'name': "xisi", "uid": 102},  {'name': "land", "uid": 103}]print(sorted(data, key=itemgetter("name")))print(sorted(data, key=itemgetter("uid")))

資料格式就是data,我們想要對name或者uid進行排序我們就是用代碼中的方法。
運行結果:

[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}][{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]

正如我們期望中的一樣

4.對列表中的多個字典根據某一欄位進行分組

注意注意,在進行分組前要首先對資料進行排序處理,排序欄位根據實際要求來選擇

即將處理的資料:

rows = [  {'name': "bran", "uid": 101, "class": 13},  {'name': "xisi", "uid": 101, "class": 11},  {'name': "land", "uid": 103, "class": 10}]

期望處理結果:

{101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}],103: [{'name': 'land', 'class': 10, 'uid': 103}]}

我們按照uid進行分組,這裡只是示範,uid一般也不會重複。

這個比較複雜一點,我們一部一步來分解

some = [('a', [1, 2, 3]), ('b', [4, 5, 6])]print(dict(some))

結果:

{'b': [4, 5, 6], 'a': [1, 2, 3]}

這裡我們的目的是將元群組轉換成字典,這個很簡單,應該都能看懂。接著我們來下一步對待處理資料進行排序:

data_one = sorted(rows, key=itemgetter("class"))print(data_one)data_two = sorted(rows, key=lambda x: (x["uid"], x["class"]))print(data_two)

這裡我們提供兩種排序方式原理相同,只是樣式稍有區別,第一種data_one是直接使用itemgetter,按照我們前面使用過得,直接按照某一欄位進行排序,可是有時候我們會有另一種要求:

先按照某一欄位排序,當第一欄位重複時,再按照另一欄位排序。

這時我們就用第二種方法,進行多欄位值排序。
排序結果如下:

[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}][{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]

結果大家慢慢看一下,還是略有差別。

接下來就進行最後一步了,將我們剛才講的兩種方式結合起來使用:

data = dict([(g, list(k)) for g, k in groupby(data_two, key=lambda x: x["uid"])])print(data)

我們對排序好的資料進行分組,然後產生元組列表,最後將其轉換成字典,這裡大功告成,我們成功將資料進行分組。

python資料統計的一些小技巧就分享到這,有需要的可以參考學習。

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.