標籤:
從開始著手SIM的研究已經將近一個月了,總算功夫不負有心人,好歹在SIM上增加了對python程式的支援。現在回過頭來想想,真正需要自己動手去編寫的代碼還是非常有限的,大多時間都是對HUSTOJ代碼不熟悉而消耗了。
在HUSTOJ下,通過judge_client調用SIM以實現判題過程的相似度判別,所有判別的資料庫均來源於伺服器端每次儲存的已AC代碼,例如題號1000的AC代碼存放在data/1000/ac檔案夾下。SIM所判別的結果也可以通過修改judge_client.cc及judged.cc中的debug為1,並重新編譯這兩個檔案,將產生的.exe檔案複製到/usr/bin檔案夾下,重啟judged進程即可。SIM輸出的結果儲存在/home/judge/run0中的sim檔案中。當然,也可以通過修改/fps/core/sim下sim.sh檔案代碼,將判別結果以不同形式輸出至制定位置。
python語言的詞法分析,其實還是蠻簡單的,只需要重寫pythonlang.l檔案就可以了。因為在SIM計算形似度規則中保留字要比普通標識符的貢獻大,所以第一步就是要修改識別保留字。第二步就是識別注釋、空格、換行、製表位等無用資訊。python的注釋分兩種:基於單行的注釋通過SingleLineCom("#".*)識別即可;基於段的注釋通過重寫MultiLineCom("‘‘‘"(.|\n)*)也可實現。最後將pythonlang.l檔案放入相應的sim檔案夾下,修改makefile檔案,增加python的編譯產生sim_py可執行程式,拷貝到/usr/bin下,驗證之。在初期的調試下,可以通過命令列來驗證,./sim_py -p 1.py 2.py |grep ^1.py|awk ‘{print $4}‘輸出判別結果。需要注意的是,hustoj預設只支援5種語言的相似度判別,所以增加新的語言時需要將judge_client.cc程式中的2268行&&lang<5這句話刪除。
運行判別的兩個程式如下:
檔案1:
###################
‘‘‘
ldf:a+b
‘‘‘
import sys
for line in sys.stdin:
b = line.split()
print int(b[0]) + int(b[1])
檔案2:
import sys
for line in sys.stdin:
a = line.split()
print int(a[0]) + int(a[1])
結果顯示檔案1與檔案2的相似度為100%。
基於SIM的python程式相似性判別