如何用代码去操作实例化浏览器?
==这个是实例化浏览器的操作界面,使用driver来控制,用get可以进入界面,然后用find_element_by_id来进行点击和搜索。
这里我们学习一下Xpath这个东西。
==这里后面会再安装一个xpath的软件,可以实现直接搜索,//代表在整个页面中查找标签,不论位置,
==比方说这里想要找到这个位置,那么在xpath中如何搜索呢,就是//div[@class='e_e e_com']
==要找它的直接下级p标签要怎么做呢?直接//div[@class='e_e e_com']/p即可
==那要获取里面的“工作职能”的文本信息怎么做呢?利用/text()即可
==假如说想要用XPath将选定的职位爬取出来怎么做呢?
选目标,点击检查
==可以看到这里的p标签=t,其下还有一个span标签,它的class name也给出了,span标签夹着的就是职位名称
然后再上面写上//span[@class='jname at'],即可得到所有的这个标签,后面加上/text()即可取到文本内容。
==然后这个是两个//text的解释
==这里是举一个例子,爬取菜鸟教程网的一些信息,这里需要注意的是,如果有id,优先使用id而不是class,因为id具有唯一性。
==通过插件xpath helper可以写出//div[@id='某某']/a/text(),然后我们需要将其转化为python代码。
==xpath不能直接使用html,而是要将其转化为xml才能使用
这个是去除空格