当前位置: 首页>前端>正文

Python 爬取网页数据的两种方法

网络抓取是从任何网站或任何其他信息源中提取数据的过程,以你想要查看的格式保存在你的系统中;

包含格式很多,例如CSV、Excel等;文件、XML、JSON等等。Python是最常见的网页抓取语言之一;对于任何网络抓取活动,Python被认为是确保此过程无任何错误进行的最佳方法;

2. 使用pandas 爬取网页数据

2.1打开网页

打开一个网页,将网址复制下来;

Python 爬取网页数据的两种方法,第1张

2.2?打开?PyCharm?编译器

先下载pandas库,【文件】=>【设置】=>【项目:xxx】=>【项目解释器】(【File】=>【Settings…】=>【project:xxx】=>【Python?Interpreter】),点击+号,在搜索框中输入“pandas”,在下方列表中选中“pandas”,点击安装,等待提示安装完成即可;

Python 爬取网页数据的两种方法,第2张
Python 爬取网页数据的两种方法,第3张

2.回到Pycharm输入以下代码

import?pandas?as?pd?????#导入pandas库html?=?"https://mobile.anjuke.com/xf/fj-nn/2020/"??#将要爬取数据的网站网址复制到此date?=?pd.read_html(html)???????#运用pd.read_html读取网站数据print(date)?????#输出爬取到的数据

3.运行结果如下所示:

Python 爬取网页数据的两种方法,第4张

3.使用urllib爬取网页数据并写入Excel表

3.1?下载?urllib?库

与上述方法一致,这里就不赘述了

3.2?代码如下

import?urllib.request???????#导入urllib库url?=?urllib.request.urlopen("https://fangjia.gotohui.com/show-39181")????????#需要抓取数据的网站data?=?url.read()dt1?=?open("D:/Code/data/2.xls","wb")???????#xls表的位置,会自动生成xls表dt1.write(data)???#将数据写入D:/Code/data/2.xls表中dt1.close()print(data)

3.3?运行结果如下

Python 爬取网页数据的两种方法,第5张

打开目录下的2.xls表,即可看到爬取的数据;

Python 爬取网页数据的两种方法,第6张

API测试


https://www.xamrdz.com/web/28q1996403.html

相关文章: