Time of Update: 2015-07-29
標籤:前言 Spark SQL允許我們在Spark環境中使用SQL或者Hive SQL執行關係型查詢。它的核心是一個特殊類型的Spark RDD:SchemaRDD。 SchemaRDD類似於傳統關係型資料庫的一張表,由兩部分組成: Rows:資料行對象Schema:資料行模式:列名、列資料類型、列可否為空白等 Schema可以通過四種方式被建立: (1)Existing RDD(2)Parquet File(3)JSON
Time of Update: 2015-07-29
標籤:Python中的對象之間賦值時是按引用傳遞的,如果需要拷貝對象,需要使用標準庫中的copy模組。1. copy.copy 淺拷貝 只拷貝父物件,不會拷貝對象的內部的子物件。2. copy.deepcopy 深拷貝 拷貝對象及其子物件一個很好的例子:import copya = [1, 2, 3, 4, [‘a‘, ‘b‘]] #原始對象b = a
Time of Update: 2015-07-29
標籤:xml檔案<?xml version="1.0" encoding="GBK"?><records serial_number="1"> <record id="1" name="admin" password="admin" auth="1" email="" receivedMail="0" description="系統超級管理員,不能被刪除。" createTime="N/A"/> </records>python
Time of Update: 2015-07-29
標籤:今天在用Python拼接字串時碰到個問題,從資料庫取出來的資料以及擷取到的時間等資料拼成了一個字串a,將字串a與自訂的字串b拼接時一直中斷,無法繼續執行,也沒有報錯,將資料庫取出資料變成自訂放到另一個檔案中嘗試,結果發現沒有問題,後來嘗試列印每個字串的類型,結果發現擷取的時間戳記類型是float,資料庫取出資料類型是Unicode,而自訂的字串類型是str,不同類型的資料不能直接拼接在一起,需要將其先轉換為同一類型再進行拼接。t=time.time()h1=‘my test 1‘str1=
Time of Update: 2015-07-29
標籤:字典的使用現實中的欄位及在python中的欄位都進行了構建,從而可以輕鬆查到某個特定的詞語(鍵),從而找到它的意義(值)。某些情況下,字典比列表更加適用:# 表徵遊戲棋盤的狀態,每個鍵都是由座標值組成的元組;# 隱藏檔修改次數,用檔案名稱作為鍵; # 數字電話/地址本建立一個人名列表,以及四位的分機號碼:>>> names=[‘Alice‘,‘Beth‘,‘Ceci‘,‘Dee-Dee‘,‘Earl‘]>>> numbers=[‘2341
Time of Update: 2015-07-29
標籤: 最近研究QQ空間、微博的(爬蟲)類比登入,發現都涉及RSA演算法。於是需要下一個RSA包(第三方包)。折騰了很久,主要是感覺網上很多文章對具體要在哪裡操作寫得不清楚。這裡做個總結,以免自己哪天又忘了。 第一種方法(不使用pip或者easy_install):Step1:在網上找到的需要的包,下載下來。eg. rsa-3.1.4.tar.gzStep2:解壓縮該檔案。Step3:命令列工具cd切換到所要安裝的包的目錄,找到setup.py檔案,然後輸入python setup.
Time of Update: 2015-07-29
標籤:1 建立數組(1) array(boject, dtype=None, copy=True, order=None, subok=False, ndmin=0)a = array([1, 2, 3, 4])b = array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]) a.dtype --> dtype(‘int32‘)a.shape -->
Time of Update: 2015-07-29
標籤:if 語句if語句由一個布林運算式後跟一個或多個語句。if 語句的文法結構如下: if expression: statements(s)註:Python 使用縮排作為其語句分組的方法,建議使用4個空格代替縮排。
Time of Update: 2015-07-29
標籤:python pycharm import 首先來說,這個問題是我用pycharm4.5進行開發的,我在做python的模組與函數單元的例子。 需要建一個模組名字叫myModule 於是我就寫了一個,挺簡單的def arithmetic(x=1, y=1, operator="+"): result={ "+":x+y, "-":x-y, "
Time of Update: 2015-07-29
標籤:運行路徑 當前位置 輸出 os sys Python指令碼輸出自己所除的目錄,比《【C++】求當前exe的運行路徑》(點擊開啟連結)、《【Java】取當前.class檔案的編譯位置》(點擊開啟連結)都要簡單,引入了os與sys固有類之後,可以自由輸出目錄或者自己的檔案名稱,代碼如下:import
Time of Update: 2015-07-28
標籤:——看到哪裡。想到哪裡,記到哪裡非常多時候。非常多人學python的時候,會忽略的東西非常多。大多數都盯著能“出貨”即可,可是通常在讀別人的代碼的時候發現,看不懂。。。一方面是自己的代碼技巧和經驗不足;還有一方面就是自己掌握的東西不全面。而這些往往是基礎的東西。還不算高大上的東西。。第一:動態執行個體屬性Python的類,物件導向的東西和其它語言不太一樣。比方執行個體的屬性是能夠動態分配的。本來沒有的。能夠自己加上,就算類中未定義,也能夠用,挺方便的。可是建議能一次行定義完整最好,以下舉個
Time of Update: 2015-07-28
標籤:
Time of Update: 2015-07-29
標籤:Python語言實際上有三種字串,通常意義的字串(str),Unicode字串(unicode)和抽象類別basestring,其中basestring不可執行個體化。 在Windows系統下的CPython解譯器輸入代碼:>>> st1 = ‘中文‘>>> st1‘\xd6\xd0\xce\xc4‘>>> type(st1)<type ‘str‘>>>> st2 =
Time of Update: 2015-07-29
標籤:Python科學計算(兩)-- 時域和頻域波形為正弦波形訊號產生、計算和顯示# -*- coding: utf-8 -*-import numpy as npimport matplotlib.pyplot as plimport matplotlibimport mathimport randomrow = 4col = 4N = 500fs = 5n = [2*math.pi*fs*t/N for t in range(N)]axis_x =
Time of Update: 2015-07-29
標籤:python class 物件導向 類 Class(類)的基本概念:類:將同一種具體事務的共同點抽象出來的表現,Python的類是一種可調用對象。類中定義的有方法,變數,資料結構。變數則是類屬性本身是沒有資料的,只有在執行個體化的時候將資料引入。方法就是函數;是操作變數引用的資料的代碼,可以知道方法是操作資料的,由於類中不包含資料,所以類無法調用方法,只有
Time of Update: 2015-07-29
標籤:python
Time of Update: 2015-07-29
標籤:python雖然在Python中的for迴圈與其它語言不大一樣,但跳出迴圈還是與大多數語言一樣,可以使用關鍵字continue跳出本次迴圈或者break跳出整個for迴圈。breakfor x in range(10): if x==5: break pr
Time of Update: 2015-07-29
標籤: 1 #!usr/bin/env python3 2 3 #在UNIX上,當某程式在控制台中被引用時,該檔案的頭兩個位元組先被讀入。如果這兩個位元組是ASCII字元 #!, 4 #shell就會認為該檔案將要由解譯器執行,並且該檔案的首行指定了要使用哪個解譯器,該行稱shebang行(shell執行) 5 #如果存在,就必須為可執行檔的首行,上面這種方式是推薦用法。 6 7 #windows系統中,這個首行不是必須的 8 9 10 #注釋全部以#開頭,沒有單獨的段注釋的方式11 ##
Time of Update: 2015-07-29
標籤:int 類型表示(正負)整數,str 類型表示字串(Unicode字元序列);所表示的整數大小隻受限於機器記憶體,而非固定的位元組數。字串可以用雙引號或是單引號封裝,需要成對的出現。 傳統上,python shell 使用
Time of Update: 2015-07-28
標籤:k-均值聚類演算法 機器學習實戰 python 《機器學習實戰》之K-均值聚類演算法的python實現最近的項目是關於“基於資料採礦的電路故障分析”,項目基本上都是師兄們在做,我只是在研究關於項目中用到的如下幾種演算法:二分均值聚類、最近鄰分類、基於規則的分類器以及支援向量機。基於項目的保密性(其實也沒有什麼保密的,但是怕以後老闆看到我寫的這篇博文,所以,你懂的),這裡就不介紹“基於資料採