推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
awolfly9
V2EX  ›  Python

有豆瓣的同事吗?想请教下豆瓣的反爬策略

  •  
  •   awolfly9 · Feb 17, 2017 · 15709 views
    This topic created in 3400 days ago, the information mentioned may be changed or developed.

    如题,能否有人剖析下豆瓣的反爬策略

    Supplement 1  ·  Feb 17, 2017
    评论区炸锅了。。。
    Supplement 2  ·  Feb 17, 2017

    我的 IP 应该被加入了豆瓣的黑名单。

    检测到有异常请求从你的 IP 发出,请 登录 使用豆瓣。

    Supplement 3  ·  Feb 17, 2017
    我不是豆瓣员工,标题输入有误。

    我是写了一个代理 IP 工具目前用豆瓣做测试,结果把我自己的原始 IP 封了。
    25 replies    2017-02-20 11:15:35 +08:00
    knightdf
        1
    knightdf  
       Feb 17, 2017
    这能告诉你?
    gimp
        2
    gimp  
       Feb 17, 2017
    买海量代理可解决绝大部分反爬问题
    linbiaye
        3
    linbiaye  
       Feb 17, 2017
    这是要人吃豆瓣的饭砸豆瓣的锅。
    murmur
        4
    murmur  
       Feb 17, 2017
    兄弟这不厚道啊
    wangyifei6817
        5
    wangyifei6817  
       Feb 17, 2017
    有法院的同事吗?想请教下现行法律有什么漏洞
    xidianlz
        6
    xidianlz  
       Feb 17, 2017
    有福彩中心的同事吗?想请教下下一期中奖号码是多少
    quietcoder
        7
    quietcoder  
       Feb 17, 2017
    有监狱的同事吗?想请教一下怎么越狱
    jixiangqd
        8
    jixiangqd  
       Feb 17, 2017
    @wangyifei6817
    @xidianlz
    @quietcoder
    都好 6 ,哈哈哈哈
    HGladIator
        9
    HGladIator  
       Feb 17, 2017 via iPhone
    有钻石矿井的同事吗?想请教一下怎么哪点儿回家
    expkzb
        10
    expkzb  
       Feb 17, 2017
    看标题,楼主应该在豆瓣工作
    phrack
        11
    phrack  
       Feb 17, 2017 via Android
    @expkzb 很明显不是
    expkzb
        12
    expkzb  
       Feb 17, 2017
    @phrack 所以为什么是“同事”呢?
    yopming
        13
    yopming  
       Feb 17, 2017
    我觉得楼主是也要建立反爬机制吧
    lhbc
        14
    lhbc  
       Feb 17, 2017 via iPhone
    有银行的同事吗?我想请教下小型机的和审计系统的 root 密码。
    engHacker
        15
    engHacker  
       Feb 17, 2017 via iPhone
    @expkzb 楼主语文自学的
    Famio
        16
    Famio  
       Feb 17, 2017
    我知道有一个人知道,而且这个人开发了收集豆瓣小组里妹子福利图片的 app ……
    ywgx
        17
    ywgx  
       Feb 17, 2017
    入职豆瓣,加白名单自己的 IP
    sunchen
        18
    sunchen  
       Feb 17, 2017
    没什么反爬啊
    lhbc
        19
    lhbc  
       Feb 17, 2017 via iPhone
    @expkzb 如果楼主是豆瓣员工,在公共论坛讨论公司机密。最轻最轻的处罚应该是开除,如果造成信息安全事故,可能还得承担民事或者刑事责任。
    如果楼主不是豆瓣员工,那一定是伸手惯犯。
    julypanda
        20
    julypanda  
       Feb 17, 2017
    @yopming 或者是反-反爬机制
    em70
        21
    em70  
       Feb 17, 2017 via Android
    豆瓣防盗链就是按频率的,白天一分钟超过 40 次就出验证码,晚上放宽到 60
    okboom
        22
    okboom  
       Feb 17, 2017
    代理就能解决,邪恶点用 tor 就可以( ╯□╰ )
    wmttom
        23
    wmttom  
       Feb 17, 2017 via iPhone
    以前做过的豆瓣抓取是,伪装真实浏览器 cookie ,每个 cookie 每分钟请求几十次,高频率容易被封 ip ,保持出验证码的低频多代理。然后出验证码都是英语单词,简单处理下背景,找个 OCR 接口一调,再做下单词纠错,自动提交验证码继续抓。
    xrlin
        24
    xrlin  
       Feb 18, 2017
    我的 ip 也被拉黑了,今天用 pyspider 爬取一些豆瓣的一些信息拿来练习下数据分析つ﹏⊂
    IanPeverell
        25
    IanPeverell  
       Feb 20, 2017 via iPhone
    可能会根据你的请求频率,短时间内请求数量,以及请求间隔是否有规律
    所以我的想法是多代理,设随机不少于一定数值的延迟
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5398 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 79ms · UTC 08:33 · PVG 16:33 · LAX 01:33 · JFK 04:33
    ♥ Do have faith in what you're doing.