当前位置: 首页>数据库>正文

学习笔记73 爬虫项目实战三4-29

如何用代码去操作实例化浏览器?

学习笔记73 爬虫项目实战三4-29,第1张

==这个是实例化浏览器的操作界面,使用driver来控制,用get可以进入界面,然后用find_element_by_id来进行点击和搜索。

这里我们学习一下Xpath这个东西。

学习笔记73 爬虫项目实战三4-29,第2张

==这里后面会再安装一个xpath的软件,可以实现直接搜索,//代表在整个页面中查找标签,不论位置,

学习笔记73 爬虫项目实战三4-29,第3张

==比方说这里想要找到这个位置,那么在xpath中如何搜索呢,就是//div[@class='e_e e_com']

学习笔记73 爬虫项目实战三4-29,第4张

==要找它的直接下级p标签要怎么做呢?直接//div[@class='e_e e_com']/p即可

学习笔记73 爬虫项目实战三4-29,第5张

==那要获取里面的“工作职能”的文本信息怎么做呢?利用/text()即可

学习笔记73 爬虫项目实战三4-29,第6张

==假如说想要用XPath将选定的职位爬取出来怎么做呢?

选目标,点击检查

学习笔记73 爬虫项目实战三4-29,第7张

==可以看到这里的p标签=t,其下还有一个span标签,它的class name也给出了,span标签夹着的就是职位名称

然后再上面写上//span[@class='jname at'],即可得到所有的这个标签,后面加上/text()即可取到文本内容。

学习笔记73 爬虫项目实战三4-29,第8张

==然后这个是两个//text的解释

学习笔记73 爬虫项目实战三4-29,第9张
学习笔记73 爬虫项目实战三4-29,第10张
学习笔记73 爬虫项目实战三4-29,第11张

==这里是举一个例子,爬取菜鸟教程网的一些信息,这里需要注意的是,如果有id,优先使用id而不是class,因为id具有唯一性。

学习笔记73 爬虫项目实战三4-29,第12张

==通过插件xpath helper可以写出//div[@id='某某']/a/text(),然后我们需要将其转化为python代码。

学习笔记73 爬虫项目实战三4-29,第13张

==xpath不能直接使用html,而是要将其转化为xml才能使用

这个是去除空格

学习笔记73 爬虫项目实战三4-29,第14张
学习笔记73 爬虫项目实战三4-29,第15张

https://www.xamrdz.com/database/66s1910464.html

相关文章: