標籤:
最近需要對3W台伺服器進行下髮腳本,如果一個一個執行,時間大約在2個小時,特別的慢,於是修改程式,採用php的多線程去分發,大概在10分鐘左右完成,下面記錄下這次的經驗和理解:
我所理解的php的多線程實現的方式有兩種,下面是官方的介紹:
1、官方的介紹:(轉載自張宴的部落格)
到php5.3以上的版本,php才算是真正的支援多線程,使用的是pthreads的擴充,php在處理多個迴圈的任務的時候,能夠大大的縮短程式的執行時間。
大多數網站的效能瓶頸,不在php的伺服器上,而是在mysql伺服器上。因為可以通過橫向的增加伺服器或者是cpu的核心數來應對。如果用Mysql資料庫,一條聯集查詢可能處理玩很複雜的商務邏輯,但是遇到大並發量的查詢,伺服器可能就會癱瘓。因此我們可以使用NoSQL資料庫代替mysql伺服器,一條很複雜的sql語句,可能需要好幾條NOSQL語句來完成,但是遇到大量的並發的情況下,速度確實非常明顯的。然後再加上php的多線程的使用,通過十個php的線程查詢NOSQL,然後匯總返回結果輸出,速度是非常之快的。
1 PHP擴充下載:https://github.com/krakjoe/pthreads2 PHP手冊文檔:http://php.net/manual/zh/book.pthreads.php
1、擴充的編譯安裝(Linux),編輯參數 --enable-maintainer-zts 是必選項:
1 cd /Data/tgz/php-5.5.1 2 ./configure --prefix=/Data/apps/php --with-config-file-path=/Data/apps/php/etc --with-mysql=/Data/apps/mysql --with-mysqli=/Data/apps/mysql/bin/mysql_config --with-iconv-dir --with-freetype-dir=/Data/apps/libs --with-jpeg-dir=/Data/apps/libs --with-png-dir=/Data/apps/libs --with-zlib --with-libxml-dir=/usr --enable-xml --disable-rpath --enable-bcmath --enable-shmop --enable-sysvsem --enable-inline-optimization --with-curl --enable-mbregex --enable-fpm --enable-mbstring --with-mcrypt=/Data/apps/libs --with-gd --enable-gd-native-ttf --with-openssl --with-mhash --enable-pcntl --enable-sockets --with-xmlrpc --enable-zip --enable-soap --enable-opcache --with-pdo-mysql --enable-maintainer-zts 3 make clean 4 make 5 make install 6 7 unzip pthreads-master.zip 8 cd pthreads-master 9 /Data/apps/php/bin/phpize10 ./configure --with-php-config=/Data/apps/php/bin/php-config11 make12 make install
vi /Data/apps/php/etc/php.ini
extension = "pthreads.so"
2、給出一段PHP多線程、與For迴圈,抓取百度搜尋網頁面的PHP程式碼範例:
1 <?php 2 class test_thread_run extends Thread 3 { 4 public $url; 5 public $data; 6 7 public function __construct($url) 8 { 9 $this->url = $url;10 }11 12 public function run()13 {14 if(($url = $this->url))15 {16 $this->data = model_http_curl_get($url);17 }18 }19 }20 21 function model_thread_result_get($urls_array) 22 {23 foreach ($urls_array as $key => $value) 24 {25 $thread_array[$key] = new test_thread_run($value["url"]);26 $thread_array[$key]->start();27 }28 29 foreach ($thread_array as $thread_array_key => $thread_array_value) 30 {31 while($thread_array[$thread_array_key]->isRunning())32 {33 usleep(10);34 }35 if($thread_array[$thread_array_key]->join())36 {37 $variable_data[$thread_array_key] = $thread_array[$thread_array_key]->data;38 }39 }40 return $variable_data;41 }42 43 function model_http_curl_get($url,$userAgent="") 44 {45 $userAgent = $userAgent ? $userAgent : ‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)‘; 46 $curl = curl_init();47 curl_setopt($curl, CURLOPT_URL, $url);48 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);49 curl_setopt($curl, CURLOPT_TIMEOUT, 5);50 curl_setopt($curl, CURLOPT_USERAGENT, $userAgent);51 $result = curl_exec($curl);52 curl_close($curl);53 return $result;54 }55 56 for ($i=0; $i < 100; $i++) 57 { 58 $urls_array[] = array("name" => "baidu", "url" => "http://www.baidu.com/s?wd=".mt_rand(10000,20000));59 }60 61 $t = microtime(true);62 $result = model_thread_result_get($urls_array);63 $e = microtime(true);64 echo "多線程:".($e-$t)."\n";65 66 $t = microtime(true);67 foreach ($urls_array as $key => $value) 68 {69 $result_new[$key] = model_http_curl_get($value["url"]);70 }71 $e = microtime(true);72 echo "For迴圈:".($e-$t)."\n";73 ?>
上述是官方給的一個php多線程的一個擴充,由於需要重新編譯,因此自己沒有進行實驗,但其實本質都是在linux中開啟多個線程來進行處理。
2、下面說下我自己搞得偽造的php的多線程的執行個體:
下面是一段測試的代碼:
for.php
1 <?php 2 $start = microtime(true); 3 for($i=0;$i<5000;$i++){ 4 $cmd = "php ./test.php &"; -----// 主要是這個,使用php執行,將程式放到後台執行,不等待返回結果,再次繼續迴圈,類似於非同步方式,產生多個php的線程。 5 $fp = popen($cmd,"r"); 6 } 7 fclose($fp); 8 $end = microtime(true); 9 10 echo $end-$start;11 12 13 ?>
test.php(簡單的顯示phpinfo的資訊):
1 <?php2 phpinfo();3 ?>
採用多線程的執行的時間:32.89448595047採用普通的執行的時間:85.191102027893
執行迴圈的次數越大,這種時間差就很明顯。
ps:我們可以寫一個python或者shell的指令碼,來即時的檢測php的進程數的變化:
1 #!/usr/bin/env/ python2 import os3 from time import sleep4 5 while 1:6 os.system("ps -aux|grep php|wc -l");7 sleep(1);8 9 上面是一個簡單的統計php進程數的一個指令碼,在shell介面執行的時候,可以將輸出定位到一個檔案中。
關於php多線程的記錄