2015年1月16日

我的第一只爬虫：爬取豆瓣读书

在YouTube上找到了一个Python爬虫的教程，然后照着做了一下，试着爬取了豆瓣上的一些信息。从下午3点多做到快9点，感觉又学到了不少东西。期间，发现了一个让我很惊讶、高兴的事，python中的字符串似乎是不限制长度的。我尝试了一下使用一千万位的字符串，没有任何问题。这一点，可比Java贴心多了啊。之前用Java写词法分析器的实验时，由于长度限制，用到字符串时就很麻烦。

主要是参考这个网站的教程（就是我在YouTube上看的教程）：https://www.thenewboston.com/forum/topic.php?id=1610

这个爬虫的源代码如下：

————————————————————————————————————————

因评论区某网友提醒，得知豆瓣网站的信息有所变化，已于4月26日上午重写代码。

代码已托管到GitHub：https://github.com/plough/myCrawler/blob/master/doubanBook/book_list_spider.py

若有任何问题请留下评论或者直接与我联系。

“以书为舟，遨游尘世”，
最好的免费 kindle 电子书分享站：

Tags: python 爬虫

开心100说道：

2015年1月17日上午11:25

py 3 吗

回复
- plough说道：
  
  2015年1月17日下午10:49
  
  我用的py2。py3应该也能跑吧，那个tutor是用的py3。我用py2，只是字符编码那里有了点问题，开头那几行代码就是解决这个问题的。其他没什么。
  
  回复
诺伊网说道：

2015年1月17日下午1:25

从知乎上一路过来，爬虫做聚合内容页面输出不错，可惜我不会编程，要不做个这样的网站吹吹牛也是不错滴，感谢博主。

回复
- plough说道：
  
  2015年1月17日下午10:51
  
  谢谢支持！编程，只要有兴趣，可以慢慢学嘛。我也是个初学者。
  
  回复
- 左轮说道：
  
  2015年1月21日下午10:13
  
  对，早期的奇虎还有大旗网都是这么做的，只是抓取过来之后给原页面加上IFrame，其实挺没意思的
  
  回复
暴雨说道：

2015年1月19日下午6:46

知乎看到了，过来支持一下

回复
- plough说道：
  
  2015年1月19日下午7:12
  
  谢谢支持！这两天来访的朋友很多，让我受宠若惊。我会好好学习，天天向上的~
  
  回复
哈士奇说道：

2015年1月21日下午12:29

博主可否将具体使用方法写下？
在下刚刚接触python，在IDLE上运行无误，但看不到效果，我该怎么办？是我还缺少什么配置吗？

回复
- plough说道：
  
  2015年1月26日下午3:06
  
  正常情况下，这段代码运行之后，会在源文件所在目录下生成一个“book_list.txt”文件。既然运行无误，相关的模块（BS4）应该已经安装了吧？多检查检查。python推荐这个入门教程：http://learnpythonthehardway.org/book/
  
  回复
  - 游桦说道：
    
    2016年3月7日下午10:26
    
    为什么我在Windows下运行提示找不到requests模块，是需要自己安装request模块吗
    
    回复
    - 桩白墨说道：
      
      2016年3月13日下午4:01
      
      这个模块不是Python自带，需要自己安装的。和bs4一样。
      
      回复
零宣说道：

2015年1月21日下午3:03

从知乎过来的，是大一的信安新生，感觉大开眼界呢

回复
- plough说道：
  
  2015年1月26日下午3:01
  
  哈哈，谢谢支持。好好学习~
  
  回复
ROCK说道：

2015年1月22日下午8:26

知乎溜过来的。lz给力，加油！

回复
- plough说道：
  
  2015年1月26日下午2:58
  
  谢谢支持！
  
  回复
木叶飞飞说道：

2015年1月25日下午8:20

哈哈，我也是知乎观光团的，支持博主。python写爬虫确实很强大。顺便问下，博主这是用的什么显示代码插件。

回复
- plough说道：
  
  2015年1月26日下午2:57
  
  谢谢！代码插件的参考资料：http://www.wpdaxue.com/wp-syntax.html
  
  回复
kingzhang说道：

2015年1月31日下午7:17

可以使用HTML DOM方式,直接读取的..比这个方便多了,你这种方式也是我之前用的..我这二天也要写一个模似人登陆网站的,然后获取页面数据的,和你这类似,稍后好了发来看看..

回复
- kingzhang说道：
  
  2015年1月31日下午7:28
  
  刚才没仔细看,原来已经用BeautifulSoup了呀.
  
  回复
vip说道：

2015年2月2日下午11:07

Kool

回复
- plough说道：
  
  2015年2月8日上午10:05
  
  Thanks!
  
  回复
MDFS说道：

2015年2月28日下午2:07

看到博主的时钟显示很有趣啊，是人组成的！

回复
- plough说道：
  
  2015年2月28日下午10:15
  
  哈哈，我也是在别人那里看到，觉得很有趣，就弄了一个。
  
  回复
rocky chen说道：

2015年3月24日下午6:45

网站是楼主做的吗？很棒呀。
以后有空可以交流交流吗？联系我的邮箱~ 或则扣扣 1957973695
我也准备搞一个技术博客。你这个可以不用注册就能够留言的，很不错。但是我怕这样会不会被注入呢~~
测试一下~~嘻嘻

回复
- plough说道：
  
  2015年3月29日下午10:45
  
  用WordPress做的，比较简单。具体可以参考我的另外一篇文章。
  
  回复
孜然说道：

2015年4月19日上午12:17

现在豆瓣的网页源代码有所调整，用这个soup.findAll好像抓取不到了。再加上把整个网站的标签合并到一起了。博主能更新一下吗？

回复
- plough说道：
  
  2015年4月24日下午1:04
  
  这样啊……我也就写过这一个爬虫，不知道行不行……过两天试一下。
  
  回复
- plough说道：
  
  2015年4月26日上午11:44
  
  你好，爬虫代码已经更新，测试可用！谢谢你提的问题，这次重写，感觉轻松多了，看来这段时间还是有进步哈 ^_^
  
  回复
Bruce说道：

2016年1月13日上午1:24

我这段时间也在学爬虫

回复
知呼观光团说道：

2016年3月3日上午11:41

知呼观光团到此一游

回复
ahren说道：

2016年4月18日下午10:27

请问代码里的header是做什么用的，一直有些困惑。我是非计算机的，业余学点爬虫。

回复
- 桩白墨说道：
  
  2016年4月20日下午5:10
  
  伪装成浏览器。你试一下不用 header，应该不能正常获取数据。
  
  回复
  - ahren说道：
    
    2016年4月22日下午5:17
    
    博主你有试过爬新浪微博的内容么？这个比豆瓣难多了啊，一直整不明白。
    
    回复
中欢说道：

2016年5月15日上午1:23

问一下朋友，你的博客这个是用的模板吗，什么写的？

回复
- 桩白墨说道：
  
  2016年5月22日下午11:35
  
  模版，请看网页底部信息。
  
  回复
sanwenshi说道：

2016年6月29日下午3:58

博主写的很好哦，谢谢分享了
这里有写好的豆瓣采集爬虫，有需要的可是试试
http://www.shenjianshou.cn/index.php?r=market/configDetail&pid=12

回复

Python

我的第一只爬虫：爬取豆瓣读书

You may also like...

36 Responses

发表回复取消回复

Python

我的第一只爬虫：爬取豆瓣读书

You may also like...

WordPress 安装插件时提示 “要执行请求的操作，WordPress需要访问您网页服务器的权限”

［解决］Pygame在OSX上无法播放mp3的问题

QQ群文件打不开，IE处于脱机状态

36 Responses

发表回复 取消回复

发表回复取消回复