使用request实现简单的网页爬虫

  1. 今天给小伙伴们讲解一下python的爬虫,使用request库实现简单的网页内容的爬取。
  2. 一、准备工作
  3. 二、编写获取html信息代码
  4. 三、如果获取网页的信息

今天给小伙伴们讲解一下python的爬虫,使用request库实现简单的网页内容的爬取。

一、准备工作

使用pip下载request库,命令pip install request,在程序中导入request,import request

二、编写获取html信息代码

使用request库爬虫,首先我们需要获取到网页的内容,也就是还没有渲染的html代码,编写如下代码:

def getHtml(url):
    try:
        html = requests.get(url,timeout=30)
        html.encoding = html.apparent_encoding
        if html.status_code ==200:
            print("获取信息成功")
    except:
        print("获取数据失败")
    return html.text

参数url是我们需要传入的网址,比如百度的网址,request.get(url,timeout=30)这个可以得到网页的内容,但并不是html的内容,后面一行的代码是设置编码格式,其中html.apperent_enconding可以帮我们自动检测当前网页的编码格式,然后我们将其设置为整个网页的编码格式即可,获取成功的状态码是200,最后返回的html.text就是我们需要的html文本。

三、如果获取网页的信息

获取网页信息,也就是获取html对应的网页内容,首先我们打开任意一个网页,比如淘宝吧,进入页面之后,按F12或者鼠标右键检查元素,进入到网页的开发者模式,这个时候我们在淘宝随便输入一个字段,比如ipad,点击确认,我们点击开发者模式的上面第一个有鼠标样式的东西,然后我们鼠标指到哪儿,就会自动帮我们定位到html代码的部分,比如现在我想获取一个td标签class属性为result_text当中a标签下面的href属性里面的网页链接,可以使用u = html.xpath("//td[@class='result_text']/a/@href"),当然了,在此之前我们还需要导入库etree提供的xpath方法,from lxml import etree,同样使用pip安装lxml,pip install lxml,这个时候,我们获取到的u里面存放的就是我们需要的信息。当需要进行多个网页爬取的时候,可以观察网页url的规律,然后用循环去解决,其实简单的网页爬虫,使用request和etree就足够解决了。对于选择器的定位,小小怪会单独讲解。


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 1990858822@qq.com

文章标题:使用request实现简单的网页爬虫

本文作者:XIAOK Z

发布时间:2019-09-01, 19:07:42

最后更新:2019-09-01, 19:28:25

原始链接:http://yoursite.com/2019/09/01/使用request实现简单的网页爬虫/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏