Web请求

这篇文章将会演示如何使用python进行web请求，这里需要几个python的模块来使得我们能够更容易创建和解析web请求与响应(httplib,Mechanize,Beautiful Soup和urllib/urllib2),安装这些模块并且检查这些功能函数.

创建一个Web请求

下面有个简短的例子，展示了使用python的SimpleHTTPServer创建一个本地web服务器，并且建立一个请求:

建立web请求

解析HTML

现在我们已经使用Python建立了一个web请求，现在我们要找一个模块来解析HTML文件。而前面我们提到了BeautifulSoup模块能够帮助我们基于HTML标签解析HTML。下面有一个例子，可以帮助你理解如何去解析HTML文件:

BeautifulSoup

BeautifulSoup对于帮助我们解析HTML非常强大，例如你可以使用BeautifulSoup内部的函数"find_all"去查找你想要解析的内容。例如:"iframes = parsed.find_all(‘iframe’)".

实战写一个应用

大家都知道，我们可以使用大量的查询去获取更多的web资源，在这里，Python脚本能够自动帮你完成你的查询并且获取到你想要的资源.我常常使用iplist.net去反查域名，看看到底有多少个域名指向了一个IP.

当你开始写脚本的时候，你首先得先考虑两件事情:

1、请求URL的连接结构２、你想要什么信息？你可以通过HTML标签定位到你想要的数据部分，当然为更加准确，你也可以使用正则式去匹配.

iplist.net的结构相对简单"http://iplist.net/<ip>/",因为我们能够相对比较容易的从一个文件里面使用循环把所有的IP都读取出来，下一步就是查看源代码，看看你最想要的是那个部分的内容，在这个例子中我们可以看到HTML标签header里面有一行<h2>domain_name</h2>.

那么我们就使用BeautifulSoup去分离这个页面的源码，下面是执行脚本的过程，我们这里只提取域名并且打印到STDOUT:

IPlist

FireBug是一个分析源代码的工具，很强加，下面你就可以看到高亮的代码就是我们需要的信息;

Firebug

说到这里，这篇文章就已经就已经完成了，对于web请求你可以去分析python究竟是如何去请求的，并且如何去提取自己有用的信息并且打印到STDOUT.这里有一个解析iplist.net比较复杂的脚本，里面有非常完整的解析原理。大家可以看看