用python抓取谷德设计网的工作职位

  • 一般来说,爬虫的技术路线分可大致分为两类:requests库+BeautifulSoup库+re(正则表达式)和Scrapy爬虫框架,
  • Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;
  • Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;
  • Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法;

Python第三方库Scrapy,介绍通过网络爬虫框架构造专业网络爬虫的基本方法。

第一步:分析网站的url:http://www.gooood.hk/category/jobs

 

右键,查看网页源代码,选择一些文字,在源代码页面输入Ctrl+F,粘贴复制的文字,进行搜索

通过对比我们发现,所有的公司职位信息都存在这样的标签里面,所以我们从这里入手,

接下来,用BeautifulSoup对页面进行解析,然后把解析的文本数据储存到本地,
以下是全部代码:

 

运行代码后,会得到如下的文本数据,包含此页面上每个公司所有的招聘职位信息

数据太枯燥,不够直观,我们的初衷是能够直观的看到各个职位的招聘比例
(可以分别统计数量然后做图表)这里我们用到一个python的第三方库wordcloud,
关于词云的案例教程晚上非常多,使用方式都差不多。这里做一个简单介绍:

后续,会尝试抓取例如建筑英才网的招聘信息等

目前是对整个工作职位的分布状况,用wordcloud做了一个显示

just for fun

发表评论

电子邮件地址不会被公开。 必填项已用*标注