不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。
整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。
最后生成的目录结构如下:
daily
├── 20150901
│ ├── full
│ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│ └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....
GITHUB 地址: pixiv_crawl