当前位置：首页>数据库>正文

学习笔记73 爬虫项目实战三4-29

数据库2024-04-13 05:09:50

如何用代码去操作实例化浏览器？

==这个是实例化浏览器的操作界面，使用driver来控制，用get可以进入界面，然后用find_element_by_id来进行点击和搜索。

这里我们学习一下Xpath这个东西。

==这里后面会再安装一个xpath的软件，可以实现直接搜索，//代表在整个页面中查找标签，不论位置，

==比方说这里想要找到这个位置，那么在xpath中如何搜索呢，就是//div[@class='e_e e_com']

==要找它的直接下级p标签要怎么做呢？直接//div[@class='e_e e_com']/p即可

==那要获取里面的“工作职能”的文本信息怎么做呢？利用/text()即可

==假如说想要用XPath将选定的职位爬取出来怎么做呢？

选目标，点击检查

==可以看到这里的p标签=t，其下还有一个span标签，它的class name也给出了，span标签夹着的就是职位名称

然后再上面写上//span[@class='jname at']，即可得到所有的这个标签，后面加上/text()即可取到文本内容。

==然后这个是两个//text的解释

==这里是举一个例子，爬取菜鸟教程网的一些信息，这里需要注意的是，如果有id，优先使用id而不是class，因为id具有唯一性。

==通过插件xpath helper可以写出//div[@id='某某']/a/text()，然后我们需要将其转化为python代码。

==xpath不能直接使用html，而是要将其转化为xml才能使用

这个是去除空格

查看全文