Back

ASP采集中获取网页内所需的html代码

ASP采集中获取网页内所需的html代码



作者:佚名

有时候,需要获取网页的html代码,如新闻采集。采集之前,首页要得到被采集的页面的html代码,然后根据代码,分析出你想要得到的内容,最后将得到的内容保存到自己的数据库中



function.asp



<%

Function getHTTPPage(url)

On Error Resume Next

dim http

set http=Server.createobject("Microsoft.XMLHTTP")

Http.open "GET",url,false

Http.send()

if Http.readystate<>4 then

exit function

end if

getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")

set http=nothing

If Err.number<>0 then

Response.Write "



服务器获取文件内容出错

"

Err.Clear

End If

End Function



Function BytesToBstr(body,Cset)

dim objstream

set objstream = Server.CreateObject("adodb.stream")

objstream.Type = 1

objstream.Mode =3

objstream.Open

objstream.Write body

objstream.Position = 0

objstream.Type = 2

objstream.Charset = Cset

BytesToBstr = objstream.ReadText

objstream.Close

set objstream = nothing

End Function

%>



index.asp





<%

url="http://www.google.cn"

response.write getHTTPPage(url)

%>