当前位置：首页 > 教程 > 编程语言 > python编程 > 用python爬虫爬取CSDN博主信息

用python爬虫爬取CSDN博主信息
日期：2021-09-08 14:03:58 来源：脚本之家

一、项目介绍

爬取网址：CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现，都是https://www.csdn.net/nav/+栏目名样式，这样我们就可以爬取不同栏目了。

以Python目录页为例，如下图所示：

在这里插入图片描述

爬取内容：每篇文章的博主信息，如博主姓名、码龄、原创数、访问量、粉丝数、获赞数、评论数、收藏数

（考虑到周排名、总排名、积分都是根据上述信息综合得到的，对后续分析没实质性的作用，这里暂不爬取。）

在这里插入图片描述

不想看代码的朋友可直接跳到第三部分~

二、Selenium爬取

分析目录页可知文章是需要动态加载的，此时需要selenium模拟浏览器不断下拉才能获取新的文章。文章的链接如下所示：

在这里插入图片描述

1、第一种爬取思路（未果）

思路图如下：

在这里插入图片描述

执行的关键代码如下：

from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://www.csdn.net/nav/python')
#下拉若干次
for i in range(10):
        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
	time.sleep(1)
#定位所有链接
blog_url = driver.find_elements_by_css_selector('div.title > h2 > a') #注意:这里保存的是所有element对象
for i in range(len(blog_url)):
	url = blog_url[i].get_attribute('href')
	driver.get(url)
	#------------相关信息爬取(省略)----------
	driver.back() #返回目录页

理论上，这段代码看起来是可以实现要求的，但实际上会遇到以下两个问题！

（1）元素定位问题

报错的原因：selenium当打开新的页面后，原来定位过的元素都会失效，需要重新定位元素。上面的driver.back()相当于打开的新的页面（但是对于我们来说只是返回原来的页面）

解决方式：只要每次返回目录页后重新定位元素即可，如下所示：

for i in range(len(blog_url)):
	blog_refind_url = driver.find_elements_by_css_selector('div.title > h2 > a')  #重新定位
	url = blog_refind_url[i].get_attribute('href')
	driver.get(url)
	#------------相关信息爬取(省略)----------
	driver.back() #返回目录页

重新定位后，不难发现，这必须要求blog_url和blog_refind_url这两个列表的长度一致啊！那也就是：每次返回目录页后，需要保持在上一次浏览的位置！ 由此引发了第二个问题：定位元素的不一致。

（2）定位元素不一致

我们在获取所有的文章链接之前，首先进行的下滑页面的操作。而每次driver.back()之后，页面都会回到最初的位置！这就很头疼，如果要保持一样的浏览位置，难道每次返回后都要下拉相同次数的页面么？那么此时我们需要解决的问题则是：如何保持上一级页面的浏览位置。emm，查了一些资料，发现这个需求是和javascript相关的。详细可参考这篇博客：js:返回到页面时滚动到上次浏览位置

大致解决思路：保存每次下滑的位置，然后最终调用最后一次下滑的位置。但归根到底，还是需要每次滑动页面，依旧很麻烦，这种思路到这也只能不了了之了。（会javascript的朋友可以尝试如何让页面直接恢复到上一级页面浏览的位置）

2、第二种爬取思路（成功）

不过，仔细思考一下，上面两个问题的来源关键在于selenium访问页面后，元素会重新定位。而我们第一步定位所有文章链接时保存的列表，里面的元素都是element对象（它是会随着页面变化而改变的！）。所以，我们只要保存每个文章的url到一个列表，挨个访问每个url，不就可以了？

思路图如下：

在这里插入图片描述

两种思路的对比与思考：前者装有所有文章的列表里都是element对象，而后者装有所有文章的列表里都是url。后者免去了再返回页面这一操作，相当于将一个爬取二级页面问题转化为一级页面问题！

全部代码如下：

from selenium import webdriver
import os
os.chdir('C:/Users/dell/Desktop')
import time
import pandas as pd
def scroll_down(driver,num):
    for i in range(num):
        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
        time.sleep(1)
def save_data(df):
    data=pd.DataFrame(df,columns=['blog_name','code_time','blog_num',
                                'view_num','fans_num','likes_num',
                                'comments_num','collections_num'])
    data.to_csv('csdn_user.csv',index=False,encoding='gb18030')
def crawler_csdn(parts_list):
    opt = webdriver.ChromeOptions()
    opt.add_experimental_option('excludeSwitches',['enable-automation'])
    opt.add_argument('--headless')
    opt.add_argument('--disable-gpu')
    opt.add_argument('blink-settings=imagesEnabled=false')
    driver = webdriver.Chrome(options=opt)
    df = []
    for part in parts_list:
        count=0
        url_des='https://www.csdn.net/nav/'+part
        driver.get(url_des)
        scroll_down(driver,30)
        time.sleep(2)
        print('开始爬取{}部分'.format(part))
        blog_list=[]
        blog_url = driver.find_elements_by_css_selector('div.title > h2 > a')
        for url in blog_url:
            blog_list.append(url.get_attribute('href'))
        print('共{}个博主'.format(len(blog_list)))
        for i in range(len(blog_list)):
            try:
                driver.get(blog_list[i])
                blog_name = driver.find_element_by_css_selector('div.profile-intro-name-boxTop > a >span.name').text
                code_time = driver.find_element_by_css_selector('span.personal-home-page.personal-home-years').text
                blog_num = driver.find_element_by_css_selector(
                    'div.data-info.d-flex.item-tiling>dl.text-center>a>dt>span.count').text
                inf_list = driver.find_elements_by_css_selector('div.data-info.d-flex.item-tiling>dl.text-center>dt>span.count')
                df.append([blog_name, code_time, blog_num,
                           inf_list[0].text, inf_list[2].text, inf_list[3].text,
                           inf_list[4].text, inf_list[5].text])
                count += 1
                print('第{}个博主信息爬取完成'.format(count))
            except:
                print('相关信息不全')
        print('{}部分爬取完成'.format(part))
    return df
if __name__ =='__main__':
    start = time.time()
    parts_list=['Python','Java','web','arch','db']
    df = crawler_csdn(parts_list)
    save_data(df)
    end = time.time()
    spend_time = int((end-start)/60)
    print('共花费{}分钟'.format(spend_time))

爬取结果如下：

在这里插入图片描述

三、Webscraper爬取

之前的博客分享过Webscraper是一种轻量级的爬取软件。不想看代码的朋友可以用它来复现上述爬取过程。（注：以下爬取过程只是针对首页的某一个栏目）

最终的爬取线路图如下

在这里插入图片描述

依旧以首页的Python栏为例：

1、创建下拉对象

这个container只是一个ID，它可以取任意名字的。其他的设置如下图所示：

在这里插入图片描述

Type勾选Element_scroll_down(负责下拉页面)勾选上Multiple后，点击多个文章所在模块后，则会出现红色选定。此时点击Done selecting，完成selector的配置。Delay设置为2000毫秒（给予页面反应时间）

此外，需要在selector后面加上:nth-of-type(-n+300)，控制爬取的条数，否则它会一直下拉页面！（这里的300则代表需要爬取的总条数）最终，selector的配置如下：

在这里插入图片描述

2、创建文章链接对象

保存container的selector后，点击进入下一层，创建如下selector

在这里插入图片描述

具体内容如下：

在这里插入图片描述

Type选择LinkSelector中不勾选Multiple，h2 a则是文章链接定位的位置

Link不方便定位的话，可以先选择text进行定位，然后得到位置后，再复制到link这即可。

3、创建博主信息对象

同理，保存完inf的selector后，再点击进入下一层，依次创建各类信息的selector，如下所示：

在这里插入图片描述

以name为例，其内容如下：

在这里插入图片描述

type选择text，相应的选择器内容只要鼠标点击博主姓名即可获得。

这样，我们就完成了所有的准备工作，接下来就可爬取啦~所有延迟时间均设置为2000ms

在这里插入图片描述

最终爬取结果如下（这里仅作演示，只爬取了七条）：

在这里插入图片描述

本次创建的sitemap如下，有兴趣的朋友可以自己实验下，只需要import sitemap即可

在这里插入图片描述

{"startUrl":"https://blog.csdn.net/nav/python","selectors":[{"parentSelectors":
["_root"],"type":"SelectorElementScroll","multiple":true,"id":"container","selector":"ul.feedlist_mod li.clearfix:nth-of-type(-n+300)","delay":"2000"},{"parentSelectors":
["container"],"type":"SelectorLink","multiple":false,"id":"inf","selector":"h2 a","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.profile-intro-name-boxTop span.name","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"blog_num","selector":"dl.text-center:nth-of-type(1) a span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"code_time","selector":"span.personal-home-page.personal-home-years","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"views_num","selector":"div.data-info:nth-of-type(2) dl.text-center > dt span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"fans","selector":"dl#fanBox.text-center span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"agreement","selector":"dl.text-center:nth-of-type(3) > dt span.count","regex":"","delay":""},{"parentSelectors":
["inf"],"type":"SelectorText","multiple":false,"id":"comment","selector":"div.data-info:nth-of-type(4) dl.text-center:nth-of-type(4) span.count","regex":"","delay":""},{"parentSelectors":["inf"],"type":"SelectorText","multiple":false,"id":"collection_num","selector":"dl.text-center:nth-of-type(5) span.count","regex":"","delay":""}],"_id":"csdn"}

总结：Webscraper虽然简单易操作，速度也和selenium差不多，但每次只能爬一个网址，需要连续爬取多个网址，还是得码代码~
以上就是使用python快速爬取CSDN博主信息的详细内容，更多关于python爬取CSDN博主信息的资料请关注其它相关文章！

python爬虫

上一篇：机器深度学习二分类电影的情感问题

下一篇：pandas读取excel时获取读取进度的实现

+ 更多教程 +

精选教程

教程标签

pycharm pip install Flask Selenium 关闭浏览器浏览器关闭窗口截图键盘事件 python 元素等待安装使用 Selenium使用爬虫requests模块爬虫模块实现全文搜索中英文搜索表单嵌套 iframe表单嵌套爬虫方法多窗口切换 python3 嵌套式对象下载音乐网易云音乐批量下载鼠标事件爬取百度文库下载百度文库 Cookies自动登录警告框启动项参数启动项 Python爬虫逆向控制浏览器 oBIX 访问Niagara数据迭代元素加法重载 all函数

音效素材网提供各类素材，打造精品素材网站！

音效素材

用python爬虫爬取CSDN博主信息
日期：2021-09-08 14:03:58 来源：脚本之家

一、项目介绍

二、Selenium爬取

1、第一种爬取思路（未果）

（1）元素定位问题

（2）定位元素不一致

2、第二种爬取思路（成功）

三、Webscraper爬取

1、创建下拉对象

2、创建文章链接对象

3、创建博主信息对象

您感兴趣的教程

在docker中安装mysql详解

win10中文输入法仅在桌面显示怎么办?

一分钟掌握linux系统目录结构

PHP程序员玩转Linux系列 Linux和Windows安装

win10怎么安装杜比音效Doby V4.1 win10安装杜

纯CSS实现iOS风格打开关闭选择框功能

Win7如何给C盘扩容 Win7系统电脑C盘扩容的

百度推广竞品词的投放策略

Visual Studio Code(vscode) git的使用教程

七牛云储存创始人分享七牛的创立故事与

Win10预览版Mobile 10547即将发布 9月19日上午

HTML标签meta总结,HTML5 head meta 属性整理

移动端html5模拟长按事件的实现方法

HTML常用meta大全(推荐)

cdr怎么把图片转换成位图? cdr图片转换为

win10系统怎么录屏?win10系统自带录屏详细

精选教程

教程标签

热门教程

关于我们

版权声明

音效素材网提供各类素材，打造精品素材网站！

用python爬虫爬取CSDN博主信息 日期：2021-09-08 14:03:58 来源：脚本之家

一、项目介绍

二、Selenium爬取

1、第一种爬取思路（未果）

（1）元素定位问题

（2）定位元素不一致

2、第二种爬取思路（成功）

三、Webscraper爬取

1、创建下拉对象

2、创建文章链接对象

3、创建博主信息对象

您感兴趣的教程

精选教程

教程标签

热门教程

关于我们

版权声明

用python爬虫爬取CSDN博主信息
日期：2021-09-08 14:03:58 来源：脚本之家