博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
记爬虫小分队(六)
阅读量:5872 次
发布时间:2019-06-19

本文共 952 字,大约阅读时间需要 3 分钟。

  • 2017年5月18日

    今天有同学问我贴吧为什么信息提取不出来?

    3629157-73314ae13743960f.jpg

    下面是同学的源代码:

import requestsfrom bs4 import BeautifulSoupstart_url = "http://tieba.baidu.com/p/4957100148"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER"}response = requests.get(start_url,headers = headers).textsoup  = BeautifulSoup(response,"html.parser")infos = soup.select('div.d_post_content j_d_post_content  clearfix')

他是同find方法,找的div的class标签,对于这个问题,我们可以换个思路,这个定位找不到,就往上找,我的代码:

import requestsfrom bs4 import BeautifulSoupstart_url = "http://tieba.baidu.com/p/4957100148"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER"}response = requests.get(start_url,headers = headers).textsoup  = BeautifulSoup(response,"html.parser")infos = soup.select('cc > div')for info in infos:    print(info.get_text().strip())
3629157-c84bcdcddc9377db.jpg

总结:各种爬取方法都需要灵活使用。

转载地址:http://fehnx.baihongyu.com/

你可能感兴趣的文章
探究操作系统的内存分配(malloc)对齐策略
查看>>
水仙花算法
查看>>
Java基础-IO流(13)
查看>>
递归法----整数划分问题
查看>>
CentOS 7 安装VirtualBox
查看>>
【转载】使用缓存的9个误区(上)
查看>>
6、宏定义与预处理、函数与函数库
查看>>
单例模式 代码以及祥解
查看>>
版本管理软件
查看>>
7、递归的二分查找
查看>>
发布过程5分钟内load飙升问题排查
查看>>
C程序编译链接问题
查看>>
hive(3)HiveQL数据定义
查看>>
PAT_A1003#Emergency
查看>>
Linux安全加固--系统相关
查看>>
UVA 12898 - And Or 与和或 (思路题)
查看>>
priority_queue 优先队列
查看>>
[SOJ] 无路可逃?
查看>>
最短路径Shortest Path algorithm
查看>>
什么是Web Server
查看>>