微信号:PythonTZXY

介绍:每天更新,更新python相关的知识.希望诸君有所收获!

Python爬取某个18禁网站的电影资源

2017-11-05 21:09 MarcoHorse


最近在想着爬一些有趣的网站,豆瓣淘宝京东,这些网站大多都被爬烂了,然后就想着爬点简单点的,例如某色网站啥的是吧,男生一般都会有几个自己知道的网站,不过这里就不讨论细节问题了,直接撸代码。

前期准备

开发环境:

 python3.6.1+window64+idea14

使用到的第三方库:

pymysql xlrd xlwt xlutils beautifulsoup requests

  1. 声明一个爬虫类Crawer,requests负责抓取目标网页信息

  2. 获取到目标信息后,使用beautifulsoup解析

  3. 判断添加到数据库,这里我们只添加到xls,最终文件想要的私聊

现在写requests爬取数据:


我们把保存数据的操作写了,最后再把涉及到html解析的部分补上来。。

最后就到获取到的html解析过程了:
使用谷歌浏览器F12-右键目标html代码-copy-选择copy selector,会得到目标代码的html相对位置信息
body > div:nth-child(10) > div > ul > li:nth-child(1) > li
根据这些数据来进行beautifulsoup定位




okay,写完,我是不会告诉你们网址的。。。23333333




作者:MarcoHorse 

源自:http://www.jianshu.com/p/b39e58dbde46

声明:文章著作权归作者所有,如有侵权,请联系小编删除



 
Python学习交流 更多文章 爬取朋友圈,Get年度关键词 报名Python全套课程居然这么棒?! 利用Python实现微博监控 Python精选面试题 Python基础:多线程编程
猜您喜欢 浙江移动发布手机终端市场分析报告 如果你是一个企业新媒体编辑,推荐你学习这100家优质公众号(收藏) 你是你人生的主角,你也可能是别的人生的NPC 架构漫谈(一):什么是架构? API接口监控那些事儿