这两天在学 Python，写了一个 Pixiv 热榜的爬虫，不知道有没有人感兴趣

爱意满满的作品展示区。

This topic created in 3906 days ago, the information mentioned may be changed or developed.

不得不感慨二次元才是第一生产力，废寝忘食的各种查资料，总算是写完，能够正常运行了。

整体功能比较简单（简陋）。就是抓取热榜列表页，遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页，在详情页中抽取出大图的地址，通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。

最后生成的目录结构如下：

daily
├── 20150901
│ ├── full
│ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│ └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....

GITHUB 地址： pixiv_crawl

pixiv

查资料

详情页

热榜

15 replies • 2015-09-30 14:27:25 +08:00

lidonghao

Sep 29, 2015

up~

TheC

Sep 29, 2015

作为曾经造作这个轮子的人...感叹一句这个轮子真的已经被造过无数次了

顺便给我的轮子打个广告： http://rakuen.thec.me/PixivRss/

cdxem713

Sep 29, 2015

@TheC 总的来说是比较经典的应用了。
PIXIV 对爬虫也比较宽容，之前没有对请求做限制的时候 IP 也不会被封。

Starduster

Sep 29, 2015

唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了

cdxem713

Sep 29, 2015 via iPhone

@Starduster 需求驱动(・ω・)ノ

geew

Sep 29, 2015

@TheC 居然还提供 RSS 简直赞话说官方有 rss 么

nikubenki

Sep 29, 2015 via iPhone

可不可以爬不在链接里的图呢

cdxem713

Sep 29, 2015

@nikubenki 额，不在链接里是指？

nikubenki

Sep 29, 2015 via iPhone

@cdxem713 就是说服务器里有这张图，但是没有链接指向它。

LancerComet

Sep 29, 2015

@TheC B 站基佬？

Velacielad

Sep 29, 2015

hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜

cdxem713

Sep 29, 2015 via iPhone

@Velacielad ^_^

nccer

Sep 29, 2015

我的第一个爬虫是爬我们学校的成绩表和个人信息

deadEgg

Sep 30, 2015

赞！

TheC

Sep 30, 2015

@geew 我一直觉得正是因为官方不提供 rss 才造成前前后后这么多人去爬 Pixiv 排行 233
@LancerComet 是 B 站不是基佬！