我的爬虫记录
- 关键词:Python 2.x – D3数据可视化 – 淘宝商品标题 – 百度百科高校信息 – 知识图谱初探
一、淘宝商品标题
数据来源
1. 代码中以关键字”短裙”为例,每页有44件商品,总共100页,抓取商品信息:
商品图片 | 商品名称 | 店铺名称 | 商品价格 | 运费 | 付款人数 | 商品评论数 | 所在城市 |
---|---|---|---|---|---|---|---|
img | name | nick | price | fee | sales | comment | city |
(其中:会存在为空值的情况)
2. 网站地址分为两种,每页有44件商品,总共100页:
3. 找到网页中的数据,获取商品详细内容即可:
网页数据
二、百度百科高校信息
数据来源
1. 以985高校名称为关键词,如”西安交通大学”,抓取百度百科高校信息:
所属城市 | 中文名 | 英文名 | 创办时间 | 简称 | 知名校友 | 主要院系 |
---|---|---|---|---|---|---|
city | name | enName | date | short | friend | dept |
2. 数据处理:补全信息、分词、统一格式:
数据格式化
3. 构建知识图谱:
效果图
Demo访问地址:http://47.95.209.24:3000/