基於SIM的python程式相似性判別

來源:互聯網
上載者:User

標籤:

       從開始著手SIM的研究已經將近一個月了,總算功夫不負有心人,好歹在SIM上增加了對python程式的支援。現在回過頭來想想,真正需要自己動手去編寫的代碼還是非常有限的,大多時間都是對HUSTOJ代碼不熟悉而消耗了。

       在HUSTOJ下,通過judge_client調用SIM以實現判題過程的相似度判別,所有判別的資料庫均來源於伺服器端每次儲存的已AC代碼,例如題號1000的AC代碼存放在data/1000/ac檔案夾下。SIM所判別的結果也可以通過修改judge_client.cc及judged.cc中的debug為1,並重新編譯這兩個檔案,將產生的.exe檔案複製到/usr/bin檔案夾下,重啟judged進程即可。SIM輸出的結果儲存在/home/judge/run0中的sim檔案中。當然,也可以通過修改/fps/core/sim下sim.sh檔案代碼,將判別結果以不同形式輸出至制定位置。

        python語言的詞法分析,其實還是蠻簡單的,只需要重寫pythonlang.l檔案就可以了。因為在SIM計算形似度規則中保留字要比普通標識符的貢獻大,所以第一步就是要修改識別保留字。第二步就是識別注釋、空格、換行、製表位等無用資訊。python的注釋分兩種:基於單行的注釋通過SingleLineCom("#".*)識別即可;基於段的注釋通過重寫MultiLineCom("‘‘‘"(.|\n)*)也可實現。最後將pythonlang.l檔案放入相應的sim檔案夾下,修改makefile檔案,增加python的編譯產生sim_py可執行程式,拷貝到/usr/bin下,驗證之。在初期的調試下,可以通過命令列來驗證,./sim_py -p 1.py 2.py |grep ^1.py|awk ‘{print $4}‘輸出判別結果。需要注意的是,hustoj預設只支援5種語言的相似度判別,所以增加新的語言時需要將judge_client.cc程式中的2268行&&lang<5這句話刪除。

運行判別的兩個程式如下:

檔案1:

###################
‘‘‘
ldf:a+b
‘‘‘
import sys
for line in sys.stdin:
    b = line.split()
    print int(b[0]) + int(b[1])

檔案2:

import sys
for line in sys.stdin:
    a = line.split()
    print int(a[0]) + int(a[1])


結果顯示檔案1與檔案2的相似度為100%。

基於SIM的python程式相似性判別

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.