开发环境 Python 3.6
编译器 PyCharm
网络请求
1 | import requests |
- requests库用于网络请求 用requests的get方法访问网站获得网页数据。
- tag使用的是中文标签在URL编码转换后。
- 第四行代码可以简写 当时年少无知不懂写。
- web_data用来存放返回数据。
解析数据
1 | from bs4 import BeautifulSoup |
- 这里我使用了一个强大的第三方库 BeautifulSoup。
- lxml用来进行文件格式解析,同样也是强大的库,用于是html格式更加完整。
- web_data记得使用text方法获得内容,否则只会得到200提示。
- soup.select方法有多种使用方法,这里只是以网页内在结构提取数据,其他方法还有通过class抓取。
打印结果
1 | for title in titles: |
- 循环游历数组,打印出每一个数据。
- 这里只打印出书名和书籍链接,需要其他信息,可以自行修改。
关于我
- 国立华侨大学
- 软件工程大二在读
- 独立视频制作者
- 啥都感兴趣
- 联系方式:
- qq: 1093846898
- wechat: czh-0526
- e-mail: 1093846898@qq.com