我的第一只爬虫:爬取豆瓣读书

在YouTube上找到了一个Python爬虫的教程,然后照着做了一下,试着爬取了豆瓣上的一些信息。从下午3点多做到快9点,感觉又学到了不少东西。期间,发现了一个让我很惊讶、高兴的事,python中的字符串似乎是不限制长度的。我尝试了一下使用一千万位的字符串,没有任何问题。这一点,可比Java贴心多了啊。之前用Java写词法分析器的实验时,由于长度限制,用到字符串时就很麻烦。

主要是参考这个网站的教程(就是我在YouTube上看的教程):https://www.thenewboston.com/forum/topic.php?id=1610

这个爬虫的源代码如下:

------------------------------------------------------------------------------------------------------------------------

因评论区某网友提醒,得知豆瓣网站的信息有所变化,已于4月26日上午重写代码。

代码已托管到GitHub:https://github.com/plough/myCrawler/blob/master/doubanBook/book_list_spider.py

若有任何问题请留下评论或者直接与我联系。