Python 中的一些小技巧

來源:互聯網
上載者:User

這裡是本人收集的一些 Python 小技巧,目前主要是一些實用函數,適合有一定基礎的童鞋觀看(不會專門介紹使用到的標準庫函數)。。

一、函數式編程

函數式編程用來處理資料,感覺很方便。(要是再配上管道操作符 | 或者 Java 的那種鏈式調用,超級爽!可惜 Python 都沒有。。需要藉助第三方庫)

1. 分組/group

資料處理中一個常見的操作,是將列表中的元素,依次每 k 個分作一組。

def group_each(a, size: int):    """        將一個可迭代對象 a 內的元素, 每 size 個分為一組        group_each([1,2,3,4], 2) -> [(1,2), (3,4)]    """    iterators = [iter(a)] * size  # 將新構造的 iterator 複製 size 次(淺複製)    return zip(*iterators)  # 然後 zip

這個函數之前在 Python 拾遺 - 奇技淫巧 中就寫過,記得是某次 Google 時在 stackoverflow 上發現的,不過它的最初來源應該是 Python 官方文檔的某個角落。

順便如果某個 size 比較常用(比如 2),還可以用 partial 封裝一下

from functools import partial # 每兩個分一組group_each_2 = partial(group_each, size=2)  # 等同於 group_each_2 = lambda a: group_each(a, 2)
2. 扁平版本的 map

稍微接觸過函數式應該都知道 flat_map,可 Python 標準庫卻沒有提供。下面是我在 stackoverflow 上找到的實現,其實很簡單

from itertools import chaindef flat_map(f, items):    return chain.from_iterable(map(f, items))

它和 map 的差別在於是不是扁平(flat) 的(廢話。。),舉個例子

>>> list(map(list, ['123', '456']))[['1', '2', '3'], ['4', '5', '6']]>>> list(flat_map(list, ['123', '456']))['1', '2', '3', '4', '5', '6']
3. 上述函數的應用舉例

在做爬蟲工作時,有時會遇到這樣的 table 元素:

對這種 html 元素,我一般會直接把它轉換成 list,結果如下:

table = [['label1', 'value1', 'label2', 'value2'],         ['label3', 'value3'],         ['label4', 'value4', 'label5', 'value5'],         ...         ]

為了方便索引,現在我需要把上面的資料轉換成下面這個樣子的 dict

{    'label1': 'value1',    'label2': 'value2',    'label3': 'value3',    'label4': 'value4',    'label5': 'value5'}

如果是平常,大概需要寫迴圈了。不過如果用剛剛說到的幾個函數的話,會變得異常簡單

 # 1. 分組groups = flat_map(group_each_2, table)# 1.1 flat_map 返回的是迭代器,list 後內容如下:# [('label1', 'value1'),#  ('label2', 'value2'),#  ('label3', 'value3'),#  ('label4', 'value4'),#  ('label5', 'value5')]# 2. 轉換成 dictkey_values = dict(groups)   # 得到的 key_values 與上面需要的 dict 別無二致。
漲姿勢的模組
  1. 迭代器:itertools,這個模組的內容,感覺全都非常實用。
  2. 特殊資料結構:colletions,也都各有用途,我用的最多的應該是 defaultdict。
  3. 函數式:functools 中的 partical、reduce 可以瞭解一下,還有 builtins 的 map、filter、zip.(不過這後面的三個函數,其實可以用推導式替代)
  4. 和比較有關的函數:sorted、max、min 和 itertools.groupby,常常使用 opreator 的 itemgetter (有時可能是 attrgetter/methodcaller)作為參數 key。
  5. 常用操作的函數庫:operator,包含了非常多的抽象操作的函數形式(加減乘除、in、等等),經常被用作 reduce/map/filter 的參數 function。內容比較多,建議在需要用到時再查閱.

P.S. 使用這些模組的話,最好附帶上詳細的注釋。(方便事後理解)

二、其他1. 多 dict 的去重

假設我們有一個 dict 的列表,裡面可能有內容一模一樣的 dict,我們需要對它做去重。
容易想到的方法就是使用 set,可是 set 中的元素必須是 hashable 的,而 dict 是 unhashable 的,因此不能直接放進 set 裡。

>>> a = [{'a': 1}, {'a': 1}, {'b': 2}]>>> set(a)Traceback (most recent call last):  File "/usr/local/lib/python3.7/site-packages/IPython/core/interactiveshell.py", line 2961, in run_code    exec(code_obj, self.user_global_ns, self.user_ns)  File "<ipython-input-5-5b4c643a6feb>", line 1, in <module>    set(a)TypeError: unhashable type: 'dict'

難道就必須手寫遞迴了嗎?未必,我在 stackoverflow 看到這樣一個小技巧

import jsondef unique_dicts(data_list: list):    """unique a list of dict        dict 是 unhashable 的,不能放入 set 中,所以先轉換成 str                unique_dicts([{'a': 1}, {'a': 1}, {'b': 2}])  ->  [{'a': 1}, {'b': 2}]    """    data_json_set = set(json.dumps(item) for item in data_list)    return [json.loads(item) for item in data_json_set]
2. str 的 startswith 和 endswith 兩個函數的參數可以是元組
In[7]: a = "bb.gif"In[8]: b = 'a.jpg'In[9]: a.endswith(('.jpg', '.gif'))Out[9]: TrueIn[10]: b.startswith(('bb', 'a'))Out[10]: True
參考
  • Python中一些不為人知的基礎技巧總結

慢慢更新,想到啥就加啥。

本文允許,但要求附上源地址

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.