使用request实现简单的网页爬虫

爬虫编程 python request爬虫

创建时间:2019-09-01 19:07

阅读:

今天给小伙伴们讲解一下python的爬虫，使用request库实现简单的网页内容的爬取。
一、准备工作
二、编写获取html信息代码
三、如果获取网页的信息

今天给小伙伴们讲解一下python的爬虫，使用request库实现简单的网页内容的爬取。

一、准备工作

使用pip下载request库，命令pip install request，在程序中导入request，import request。

二、编写获取html信息代码

使用request库爬虫，首先我们需要获取到网页的内容，也就是还没有渲染的html代码，编写如下代码：

def getHtml(url):
    try:
        html = requests.get(url,timeout=30)
        html.encoding = html.apparent_encoding
        if html.status_code ==200:
            print("获取信息成功")
    except:
        print("获取数据失败")
    return html.text

参数url是我们需要传入的网址，比如百度的网址，request.get(url,timeout=30)这个可以得到网页的内容，但并不是html的内容，后面一行的代码是设置编码格式，其中html.apperent_enconding可以帮我们自动检测当前网页的编码格式，然后我们将其设置为整个网页的编码格式即可，获取成功的状态码是200，最后返回的html.text就是我们需要的html文本。

三、如果获取网页的信息

获取网页信息，也就是获取html对应的网页内容，首先我们打开任意一个网页，比如淘宝吧，进入页面之后，按F12或者鼠标右键检查元素，进入到网页的开发者模式，这个时候我们在淘宝随便输入一个字段，比如ipad，点击确认，我们点击开发者模式的上面第一个有鼠标样式的东西，然后我们鼠标指到哪儿，就会自动帮我们定位到html代码的部分，比如现在我想获取一个td标签class属性为result_text当中a标签下面的href属性里面的网页链接，可以使用u = html.xpath("//td[@class='result_text']/a/@href")，当然了，在此之前我们还需要导入库etree提供的xpath方法，from lxml import etree，同样使用pip安装lxml，pip install lxml，这个时候，我们获取到的u里面存放的就是我们需要的信息。当需要进行多个网页爬取的时候，可以观察网页url的规律，然后用循环去解决，其实简单的网页爬虫，使用request和etree就足够解决了。对于选择器的定位，小小怪会单独讲解。

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 1990858822@qq.com