推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
onecode
V2EX  ›  Python

技术渣,谁给写个爬虫,感谢

  •  
  •   onecode · May 21, 2019 · 19209 views
    This topic created in 2583 days ago, the information mentioned may be changed or developed.
    137 replies    2019-06-19 17:22:49 +08:00
    1  2  
    onecode
        101
    onecode  
    OP
       May 22, 2019
    @usingnamespace 博客园啊
    RyanOne
        102
    RyanOne  
       May 22, 2019
    你这直接是 json 了 ,PowerShell 的 Invoke-WebRequest 一把梭
    cway
        103
    cway  
       May 22, 2019
    你的意思是把所有图片都爬下来,想想都很刺激呢
    doctortao
        104
    doctortao  
       May 22, 2019
    最近流行以学习爬虫为名的开车?破站药丸啊。
    jwh199588
        105
    jwh199588  
       May 22, 2019
    你是想干什么,直接通过链接将图片下载到本地吗
    loryyang
        106
    loryyang  
       May 22, 2019
    我很早写过一个爬桌面背景图片的爬虫,说实话,如果有反爬,就会难很多。至于谁给你写一个?写了也不给你
    PS:有些*黄 图*网站,会很卡,其实不是他网站问题,而是好多人在爬他
    dongya
        107
    dongya  
       May 22, 2019
    您尝试访问的网站类型属于[访问网站 /成人内容]已经被上网策略[ACL]拒绝访问。如果有疑问,请联系网络管理员。
    pecopeco
        108
    pecopeco  
       May 22, 2019
    口味太重。。。爬不动。。
    killerv
        109
    killerv  
       May 22, 2019
    本人穷,谁给点钱
    killerv
        110
    killerv  
       May 22, 2019
    楼主好像在开车
    hhhfffhhh
        111
    hhhfffhhh  
       May 22, 2019
    爬了
    都不是高清的 还带水印 没啥意思

    有高清的不带水印的吗?手动狗头
    xiaobai9927
        112
    xiaobai9927  
       May 22, 2019
    这都是现成的接口了,还不会爬啊。。。
    我怀疑楼主在开车。。。
    cway
        113
    cway  
       May 22, 2019
    这其实不算爬虫了,提交 http 请求获得 json 返回值,然后根据一定规则在电脑里建以 title 为名的文件夹,把图片都下载进去
    DeWhite
        114
    DeWhite  
       May 22, 2019
    @whitehack 这架飞机真实
    DeWhite
        115
    DeWhite  
       May 22, 2019
    @A1321A 厉害了,开飞机。
    我怀疑本贴很多人都开飞机,证据确凿了。
    dorothyREN
        116
    dorothyREN  
       May 22, 2019
    我怀疑你在开车,而且我好像也有证据
    c4f36e5766583218
        117
    c4f36e5766583218  
       May 22, 2019
    c4f36e5766583218
        118
    c4f36e5766583218  
       May 22, 2019
    [Imgur]( )
    dunn
        119
    dunn  
       May 22, 2019
    一点都不助人为乐

    爬虫
    xavier007
        120
    xavier007  
       May 22, 2019
    关键时刻还得看拍黄片(PHP)
    ```php
    $i =1;
    while (true) {
    $content = file_get_contents("http://adr.meizitu.net/wp-json/wp/v2/posts?page={$i}&per_page=40");
    $array = json_decode($content, true);
    var_dump($array);
    if ($array && count($array) > 0) {
    foreach ($array as $one) {
    $thumb_src = file_get_contents($one['thumb_src']);
    file_put_contents('./img/' . $one['title'] . '.jpg', $thumb_src);
    }
    } else {
    break;
    }
    usleep(1000);
    $i++;
    }
    ```
    510908220
        121
    510908220  
       May 22, 2019
    Rizio
        122
    Rizio  
       May 22, 2019
    直接看 pronhub 不好?再不然 C6
    daguaochengtang
        123
    daguaochengtang  
       May 22, 2019
    @registerrr 我也好奇这个网站首页是什么
    yu13n
        124
    yu13n  
       May 22, 2019 via Android
    @onecode #22 那就做个爬虫工具,爬取网页上所有的图片链接并显示。
    CatTom
        125
    CatTom  
       May 22, 2019
    貌似所有写爬虫的人第一练手都是妹子图(手动狗头)
    jaylee77
        126
    jaylee77  
       May 22, 2019
    这个贴我已经收藏了
    Kazuhira
        127
    Kazuhira  
       May 22, 2019 via Android
    DIY...
    sethverlo
        128
    sethverlo  
       May 22, 2019
    能不能在标题里加个 NSFW ……
    tikazyq
        129
    tikazyq  
       May 22, 2019
    写好的爬虫可以用爬虫平台 Crawlab 来管理,试一下呗,https://github.com/tikazyq/crawlab
    fank99
        130
    fank99  
       May 23, 2019
    我怀疑你在开车。但我又没有证据
    rffan
        131
    rffan  
       May 23, 2019
    哇,我都不敢点开你的 JSON 里面的值。这车开的不错,我收藏一下。
    evlos
        132
    evlos  
       May 23, 2019 via iPhone
    Dick-driven Development 简称 DDD
    overkazaf
        133
    overkazaf  
       May 23, 2019
    import os
    import time
    import requests
    import sys

    def fetch(total_page, per_page):
    url_prefix = "http://adr.meizitu.net/wp-json/wp/v2/posts?"
    image_path = "./images"

    if not os.path.exists(image_path):
    os.mkdir(image_path)

    os.chdir(image_path)

    for i in range(1, int(total_page)):
    url = url_prefix + "page=" + str(i) + "&per_page=" + str(per_page)
    r = requests.get(url)
    d = r.json()
    for item in d:
    img_src = item['thumb_src']
    cmd = "wget -c " + img_src
    os.system(cmd)
    time.sleep(0.1)
    print 'Images have been succefully downloaded to ./images folder'

    if __name__ == "__main__":
    if len(sys.argv) == 3:
    [f, total_page, per_page] = sys.argv
    fetch(total_page, per_page)
    else:
    fetch(18, 100)



    我是雷锋,拿走不谢
    overkazaf
        134
    overkazaf  
       May 23, 2019
    格式有问题,codes 改到这里了: https://shimo.im/docs/uuUDfLT1yTgWtNFm/
    hhzc
        135
    hhzc  
       Jun 19, 2019
    @zhtttyecho 110 的无门槛今天还能领吗?
    zhtttyecho
        136
    zhtttyecho  
       Jun 19, 2019
    @hhzc 活动截止到 6 月 18 号蛤,话说,你为什么在这个帖子艾特我。。。
    hhzc
        137
    hhzc  
       Jun 19, 2019
    @zhtttyecho 那帖回复提示权限不够,所以在这里试试。
    1  2  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5379 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 146ms · UTC 09:02 · PVG 17:02 · LAX 02:02 · JFK 05:02
    ♥ Do have faith in what you're doing.