pythonRegex修複網站文章字型不統一問題

來源:互聯網
上載者:User

  網站的大架構下有定義的字型,包括字型大小和顏色等,使用者發布文章的時候可能是從其他網站複製過來的文本,複製的過程也保留了字型描述資訊。當文章在頁面上顯示的時候,預設先會使用文章中定義的字型,如果文章中字型不存在的話才顯示大架構下定義的全域字型。因此網站的內容就會顯得很亂,有的文章字型很大,有的文章字型很小,不美觀。能統一的話就好了!

  我對html和css等不是很熟,不知道是否能設定一下讓文章中定義的字型內容失效。

  笨人有笨辦法,統一修改文章,將使用者的對字型的定義全部刪除!哈哈!如果手工完成的話,這可是一個相當繁重的任務,要首先預覽頁面,如果不統一的話就修改字型,幸好編輯器裡面有個“清除格式”選項,全選文本,點一下就OK了,然後再儲存……也很麻煩

  如果僅僅是修改字型的話,最省事的方法當然是直接修改資料庫,從資料庫將文章提取出來,刪除和字型相關的標籤,然後再寫回資料庫。

  專門查了一下html參考手冊,對字型的定義有兩種方法:

1.是用<font>標籤,例如:

<p><font size="2" face="Verdana">This is a paragraph.</font></p><p><font size="3" face="Times">This is another paragraph.</font></p>

這種方法是不推薦使用的

2.使用style定義,例如:

<p style="font-family:verdana;font-size:80%;color:green">This is a paragraph with some text in it. This is a paragraph with some text in it. This is a paragraph with some text in it. This is a paragraph with some text in it.</p>

  只要將字型的定義部分刪除就可以了,用python的Regex模組進行替換無壓力:

def format(data):    '''將font標籤和style標籤全部刪除'''    p = re.compile(r'<font .*?>|</font>|style=\".*?\"')    ret = p.sub('',data)    if ret != data:        return retelse:        return None

  python處理資料庫相關操作時要注意更新資料方法,可以參考這篇文章:http://www.cnblogs.com/ma6174/archive/2013/02/21/2920126.html

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.