微信号:PythonPush

介绍:人生苦短,我用 Python.Python 越来越受广大程序员的喜爱.

教女朋友爬虫(续)

2016-01-11 18:44 Python开发
作者:Gutierrez
地址:http://www.jianshu.com/p/14eaeb53d1eb

上次写的教程让女票高兴了很久,但她高兴的原因恐怕并不是学会了爬虫,这点我还是非常清醒的。这篇教程的续集我很早就想好,但碍于实在没有时间将它写出来,终于咖啡馆的网络不好用,又没带书,只好耐着性子写完它,算给自己为了爬虫痴迷那几天一个交代。我还是尽量写的通俗,以求能让更多的人看懂,比如我可爱的女票。

重要的前提,我假定你们已经看过第一篇爬虫教程,并且已经实操了,那么我们跳过环境设置,直入主题。最近开了博客(www.readlist.cn),我将教程放在那里,欢迎大家有空去看看,涨个人气。

我们的目的是爬取网页中的图片,可能你已经发现了,我们只能下载网页中的20张图片。实际上,我们用浏览器浏览该网页时,页面中的照片不止20张,随着滚动条的滚动,好像网页在不断的加载新的照片,可不可以贪心的把所有的照片下载下来呢?当然可以!

还用用chorme打开我们爬虫的目标网页,页面上右击选择显示网页源代码,我们在新打开的标签页看到了该网页的源代码。

有了前面的基础,我们可以轻松的找到我们需要的图片地址,<img class=”pic” src=”后面跟着的就是我们需要的图片地址。按command+F搜索这串代码,发现chrome在该源代码中找到20个对象,这与我们第一篇教程得到的结果是相符的。接下来,你可以试试,无论你怎么滚动滚动条,源代码不变,也就是源代码只有前20张照片的地址,那么后面的图片地址在哪里?

异步加载

其实,这个网页用到了一种常见的网页加载技术——异步加载。试想一下,该网页可能有成千上万的照片,如果当浏览器访问时,全部显示显然要花很长时间才能全部加载,浪费时间浪费带宽,解决这一不合理状况的就是异步加载技术。你浏览该网页时,浏览器只会加载前20张照片,当你滚动条滑动最下面时,浏览器认为你还需要阅读更多的内容,就会向服务器提出申请说,“这个用户想看更多的,再来些“,服务器会再发20张图片的内容给浏览器,以此类推。

上述过程,你可以通过在网页空白处右键点击检查,下面的chrome工具栏中的Network标签会告诉你浏览器是怎么实现我们上面所述的异步加载。滚动滚动条至最下面,你会发现工具栏中出现了21个对象,其中20个为图片,就是页面新加载的20张图片,剩下1个是json文件。继续滚动,这里会再增加21个,以此类推,有没有很有意思。

我们可以将json理解为一个包裹,这个包裹里放着的就是20张图片的地址,我们每滚动到页尾,就会向服务器申请一个包裹,然后浏览器拆开包裹,将里面的内容显示在网页上。可是,服务器里存放了无数个包裹,它怎么知道我们需要哪个包裹,有过网购经验的MM肯定可以想到,每个包裹都有一个唯一的身份证,我们称之为“快递单号”。这样,一切就可以解释,浏览器将我们需要的包裹号发送给服务器,服务器然后如实将该包裹发送回来。我们可以仔细看下json,选中json文件,在右侧的工具栏中选择Preview标签,里面的html中放着的是有新增加图片地址的源代码,last_key是下一段代码的包裹号,所以不难推测,源代码中有一个last_key指向本包裹。

我们重新捋一下思路,首先爬取源代码中的图片,然后向服务器发送包裹号,获取包裹,解析其中的内容,然后再发送包裹号,再解析包裹中的内容,以此类推。接下来,终于可以上代码了。

#-*-coding:utf8-*-
import re
import requests
import json

url = 'http://www.qdaily.com/categories/17'
url_more = 'http://www.qdaily.com/categories/categorymore/17/'

html = requests.get(url).text
last_key = re.search('lastKey="(.*?)"',html,re.S).group(1)

for i in range(3):
    pic_url = re.findall('"pic" src="(.*?)"',html,re.S)
    j = 0
    for each in pic_url:
        url = 'http://www.qdaily.com' + each
        print('now downloading:' + url)
        pic = requests.get(url)
        fp = open('pic//' + str(i) +str(j) + '.jpg','wb')
        fp.write(pic.content)
        fp.close()
        j += 1

    url = url_more + last_key + 'json'
    data = requests.get(url)
    html = json.loads(data.text)[u'data'][u'html']
    last_key = str(json.loads(data.text)[u'data'][u'last_key'])

代码解析

#-*-coding:utf8-*-的意思上字符编码是utf-8。

import re import requests import json的意思上导入re、requests 和json库,告诉电脑,我们下面要用这三个库中的程序了。

前面我们分析得到下一个包裹的包裹号,但是到底怎么获取它呢?可以在检查工具栏中,点击Headers,查看到json的地址。

接下来定义两个变量(就是存储容器)存放两个地址,我们接下来需要用到这两个地址。

url = 'http://www.qdaily.com/categories/17'
url_more = 'http://www.qdaily.com/categories/categorymore/17/'

然后获取url中地址的源代码,并且在源代码中查找last_key。

html = requests.get(url).text
last_key = re.search('lastKey="(.*?)"',html,re.S).group(1)

下面的代码是我们这篇教程的核心,用循环来不断向获取新的包裹,拆开它,通过里面的图片地址下载图片,我们这里只循环3次,下载60张图片,当然你想循环多少次就改一下数字即可,相信你可以办到。for i in range(3):就是循环语句,表示接下来的语句要执行三次。
逻辑是非常清楚的:

  • 从源代码中获取图片地址

       pic_url = re.findall('"pic" src="(.*?)"',html,re.S)
  • 将图片下载到指定文件夹

      j = 0
      for each in pic_url:
          url = 'http://www.qdaily.com' + each
          print('now downloading:' + url)
          pic = requests.get(url)
          fp = open('pic//' + str(i) +str(j) + '.jpg','wb')
          fp.write(pic.content)
          fp.close()
          j += 1
  • 获取下一批图片的源代码

      url = url_more + last_key + 'json'
      data = requests.get(url)
      html = json.loads(data.text)[u'data'][u'html']
  • 获取下一批图片源代码中包含的last_key

      last_key = str(json.loads(data.text)[u'data'][u'last_key'])

我没有详细解释代码的具体含义,因为接下来我要去逛书店,没有耐心了。如果你有疑问,欢迎到我的博客留言提问,有问必答。
执行程序

将上面到代码保存为picdownloader2.py,置于根目录下,并且新建文件夹pic。打开终端,写下如下代码,回车即可

python picdownloader2.py

终于完成了“教女朋友爬虫”的续集,关于爬虫的教程先告一段落。上次的教程让女票(领导)甚是开心,顺便提出了新要求,要我继续写教程,因为她还要学很多,学markdown,学印象笔记,学Hexo博客。。。再一次硬广,欢迎关注我的博客,微博。

今天是女票麻麻的生日,未来丈母娘生日快乐。



●本文编号14,以后想阅读这篇文章直接输入14即可。

●输入m可以获取到全部文章目录



 
Python开发 更多文章 说说Python中的几个内建函数和表推导 我理解的 Python 最佳实践 17个新手常见Python运行时错误 浅谈 Python 的 with 语句 Python性能优化的20条建议
猜您喜欢 Folly源码分析系列(一) — ThreadLocalPtr 漫谈程序员:让程序员蛋疼的那些事儿 (十七)重兵来袭之SmoothCheckBox​ CentOS系统故障 | 一桩"血案"引发的容器存储驱动比较 [有人@我]你的apple watch待签收!