我的爬虫记录

  • 关键词:Python 2.x – D3数据可视化 – 淘宝商品标题 – 百度百科高校信息 – 知识图谱初探

一、淘宝商品标题

数据来源

image

1. 代码中以关键字”短裙”为例,每页有44件商品,总共100页,抓取商品信息:


商品图片 商品名称 店铺名称 商品价格 运费 付款人数 商品评论数 所在城市
img name nick price fee sales comment city

(其中:会存在为空值的情况)


2. 网站地址分为两种,每页有44件商品,总共100页:

https://s.taobao.com/search?q=短裙&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20171113&ie=utf8

https://s.taobao.com/search?q=短裙&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20171113&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44

3. 找到网页中的数据,获取商品详细内容即可:

网页数据

image

二、百度百科高校信息

数据来源

image

1. 以985高校名称为关键词,如”西安交通大学”,抓取百度百科高校信息:


所属城市 中文名 英文名 创办时间 简称 知名校友 主要院系
city name enName date short friend dept


2. 数据处理:补全信息、分词、统一格式:

数据格式化

image

3. 构建知识图谱:

效果图

image

Demo访问地址:http://47.95.209.24:3000/

三、原文作者博客:

星战系列知识图谱

四、我的代码:

淘宝商品标题

知识图谱初探(百度百科)