ASP實現關鍵詞擷取(各搜尋引擎,GB2312及UTF-8)

來源:互聯網
上載者:User

不知道為什麼現在各大搜尋引擎編碼居然不一樣.當然不是GB2312就是UTF-8了.編碼問題是比較頭疼的問題...頭疼的不要命...

我們獲得關鍵詞,一般是通過來訪頁面的url進行分析的.比如

http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr=

各位肯定知道這個是通過urlencode編碼的.

我們得到其中的資訊,需要進行2步.第一步是進行urldecode,在我們普通參數活得的時候,這個是由ASP自己來進行的,但是現在我們不得不進行手工解碼.

網上函數很多,但都是針對於GB2312頁面解GB2312.UTF-8的.對於這個,我們可以很輕鬆的先進行解碼,然後根據搜尋引擎判斷它的編碼,如果是UTF-8就再轉換為GB2312.

但是由於我的網站是UTF-8頁面的.而UTF-8頁面我找到的只有解UTF-8字元的urldecode編碼的.在這裡停頓了很久,最後我只能用最糟糕的方法,把拆分出來的關鍵詞用xmlhttp提交到一個GB2312的ASP頁面,然後活得亂碼(GB2312)後再進行GB2312 to UTF-8的轉換.

下面主要實現代碼.

Public Function GetSearchKeyword(RefererUrl) 搜尋關鍵詞

if RefererUrl="" or len(RefererUrl)<1 then exit function

on error resume next

Dim re

Set re = New RegExp

re.IgnoreCase = True

re.Global = True

Dim a,b,j

模糊尋找關鍵詞,此方法速度較快,範圍也較大

re.Pattern = "(word=([^&]*)|q=([^&]*)|p=([^&]*)|query=([^&]*)|name=([^&]*)|_searchkey=([^&]*)|baidu.*?w=([^&]*))"

Set a = re.Execute(RefererUrl)

If a.Count>0 then

Set b = a(a.Count-1).SubMatches

For j=1 to b.Count

If Len(b(j))>0 then

if instr(1,RefererUrl,"google",1) then

GetSearchKeyword=Trim(U8Decode(b(j)))

elseif instr(1,refererurl,"yahoo",1) then

GetSearchKeyword=Trim(U8Decode(b(j)))

elseif instr(1,refererurl,"yisou",1) then

GetSearchKeyword=Trim(getkey(b(j)))

elseif instr(1,refererurl,"3721",1) then

GetSearchKeyword=Trim(getkey(b(j)))

else

GetSearchKeyword=Trim(getkey(b(j)))

end if

Exit Function

end if

Next

End If

if err then

err.clear

GetSearchKeyword = RefererUrl

else

GetSearchKeyword = ""

end if

End Function

Function URLEncoding(vstrIn)

dim strReturn,i,thischr

strReturn = ""

For i = 1 To Len(vstrIn)

ThisChr = Mid(vStrIn,i,1)

If Abs(Asc(ThisChr)) < &HFF Then

strReturn = strReturn & ThisChr

Else

innerCode = Asc(ThisChr)

If innerCode < 0 Then

innerCode = innerCode + &H10000

End If

Hight8 = (innerCode And &HFF00)\ &HFF

Low8 = innerCode And &HFF

strReturn = strReturn & "%" & Hex(Hight8) & "%" & Hex(Low8)

End If

Next

URLEncoding = strReturn

End Function

function getkey(key)

dim oreq

set oreq = CreateObject("MSXML2.XMLHTTP")

oReq.open "POST","http://"&WebUrl&"/system/ShowGB2312XML.asp?a="&key,false

oReq.send

getkey=UTF2GB(oReq.responseText)

end function

function chinese2unicode(Str)

dim i

dim Str_one

dim Str_unicode

for i=1 to len(Str)

Str_one=Mid(Str,i,1)

Str_unicode=Str_unicode&chr(38)

Str_unicode=Str_unicode&chr(35)

Str_unicode=Str_unicode&chr(120)

Str_unicode=Str_unicode& Hex(ascw(Str_one))

Str_unicode=Str_unicode&chr(59)

next

Response.Write Str_unicode

end function

function UTF2GB(UTFStr)

Dim dig,GBSTR

for Dig=1 to len(UTFStr)

if mid(UTFStr,Dig,1)="%" then

if len(UTFStr) >= Dig+8 then

GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9))

Dig=Dig+8

else

GBStr=GBStr & mid(UTFStr,Dig,1)

end if

else

GBStr=GBStr & mid(UTFStr,Dig,1)

end if

next

UTF2GB=GBStr

end function

function ConvChinese(x)

dim a,i,j,DigS,Unicode

A=split(mid(x,2),"%")

i=0

j=0

for i=0 to ubound(A)

A(i)=c16to2(A(i))

next

for i=0 to ubound(A)-1

DigS=instr(A(i),"0")

Unicode=""

for j=1 to DigS-1

if j=1 then

A(i)=right(A(i),len(A(i))-DigS)

Unicode=Unicode & A(i)

else

i=i+1

A(i)=right(A(i),len(A(i))-2)

Unicode=Unicode & A(i)

end if

next

if len(c2to16(Unicode))=4 then

ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode)))

else

ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode)))

end if

next

end function

function U8Decode(enStr)

輸入一堆有%分隔的字串,先分成數組,根據utf8規則來判斷補齊規則

輸入:關 E5 85 B3 鍵 E9 94 AE 字 E5 AD 97

輸出:關 B9D8 鍵 BCFC 字 D7D6

dim c,i,i2,v,deStr,WeiS

for i=1 to len(enStr)

c=Mid(enStr,i,1)

if c="%" then

v=c16to2(Mid(enStr,i+1,2))

判斷第一次出現0的位置,

可能是1(單位元組),3(3-1位元組),4,5,6,7不可能是2和大於7

理論上到7,實際不會超過3。

WeiS=instr(v,"0")

v=right(v,len(v)-WeiS)第一個去掉最左邊的WeiS個

i=i+3

for i2=2 to WeiS-1

c=c16to2(Mid(enStr,i+1,2))

c=right(c,len(c)-2)其餘去掉最左邊的兩個

v=v & c

i=i+3

next

if len(c2to16(v)) =4 then

deStr=deStr & chrw(c2to10(v))

else

deStr=deStr & chr(c2to10(v))

end if

i=i-1

else

if c="+" then

deStr=deStr&" "

else

deStr=deStr&c

end if

end if

next

U8Decode = deStr

end function

function c16to2(x)

這個函數是用來轉換16進位到2進位的,可以是任何長度的,一般轉換UTF-8的時候是兩個長度,比如A9

比如:輸入“C2”,轉化成“11000010”,其中1100是"c"是10進位的12(1100),那麼2(10)不足4位要補齊成(0010)。

dim tempstr

dim i:i=0臨時的指標

for i=1 to len(trim(x))

tempstr= c10to2(cint(int("&h" & mid(x,i,1))))

do while len(tempstr)<4

tempstr="0" & tempstr如果不足4位那麼補齊4位元

loop

c16to2=c16to2 & tempstr

next

end function

function c2to16(x)

2進位到16進位的轉換,每4個0或1轉換成一個16進位字母,輸入長度當然不可能不是4的倍數了

dim i:i=1臨時的指標

for i=1 to len(x) step 4

c2to16=c2to16 & hex(c2to10(mid(x,i,4)))

next

end function

function c2to10(x)

單純的2進位到10進位的轉換,不考慮轉16進位所需要的4位前零補齊。

因為這個函數很有用!以後也會用到,做過通訊和硬體的人應該知道。

這裡用字串代表二進位

c2to10=0

if x="0" then exit function如果是0的話直接得0就完事

dim i:i=0臨時的指標

for i= 0 to len(x) -1否則利用8421碼計算,這個從我最開始學電腦的時候就會,好懷念當初教我們的謝道建老先生啊!

if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i)

next

end function

function c10to2(x)

10進位到2進位的轉換

dim sign, result

result = ""

符號

sign = sgn(x)

x = abs(x)

if x = 0 then

c10to2 = 0

exit function

end if

do until x = "0"

result = result & (x mod 2)

x = x \ 2

loop

result = strReverse(result)

if sign = -1 then

c10to2 = "-" & result

else

c10to2 = result

end if

end function

function URLDecode(enStr)

dim deStr,strSpecial

dim c,i,v

deStr=""

strSpecial="!""#$%&()*+,/:;<=>?@[\]^`{ |}~%"

for i=1 to len(enStr)

c=Mid(enStr,i,1)

if c="%" then

v=eval("&h"+Mid(enStr,i+1,2))

if inStr(strSpecial,chr(v))>0 then

deStr=deStr&chr(v)

i=i+2

else

v=eval("&h"+Mid(enStr,i+1,2)+Mid(enStr,i+4,2))

deStr=deStr&chr(v)

i=i+5

end if

else

if c="+" then

deStr=deStr&" "

else

deStr=deStr&c

end if

end if

next

URLDecode=deStr

end function

許多代碼都是網上的.找不到作者.

PS:現在暑假就要接受,由於家庭原因我不想留在我的城市.中考到達本地重點.不想說城市名字.否則會招來熟人.只要不在山東的學校算是重點的能不能聯絡下.

QQ:32113739

對程式有極大興趣,但資訊奧賽只活得一等的X名.因為我認為技術不應該在所謂競賽中體現,就如才能不應該在那些無意義的考試中體現一樣.電子作品也弄了各省一等..不過也一般學習一般...所以只要是一般重點就好了..只是不想在離家太近的地方.

現在ASP十分熟練,雖然有些知識缺陷,比如編碼問題(汗...),但是網路如此大,我想我不是只有在課本中才能得到所謂的知識.而且現在正在啃ASP.net的書,如果貴校做網站完全可以幫忙.

對新技術十分狂熱,雖然被他們稱為審美有障礙的人.但我想看到結構偶的程式還不至於吐血.

算了..再貼點.

偶開發D Database+ASP ->xml+xslt->xhtml +css 的算是叫CMS的東西

http://www.joysou.com

也用了CSDN用的FCK編輯器,今天上來才發現換了.不過那個FCK的FIle系統讓偶統統改掉.

這個系統在暑假結束前一定會發布.不過很多朋友說易用性有問題...很多人不會xslt.汗...

唉...如果找不到學校.我也許會漂泊,也許會消失吧.當然這不是威脅..只是恨我的城市,恨那裡看到的,幹過的一切.

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.