ihacku

数字公司搞“分布式爬虫”?

  •  
  •   ihacku · Sep 2, 2012 · 3446 views
    This topic created in 5034 days ago, the information mentioned may be changed or developed.
    最早看到的是7月18号这条推 https://twitter.com/quakewang/status/225773315527176193

    ‏@quakewang
    发现网站日志里面出现了一些奇怪的404错误,以为是代码写错导致用户误点击,结果查了一圈发现是奇虎的爬虫,问题是这些链接是非公开,猜测是用户使用了360浏览器,然后360收集数据供qihoobot去爬,真是太恶心了

    然后是接下来看到百度工程师8月31号的微博 http://weibo.com/2246954235/yzGrucOxV

    接下来这条今天看到的就有点那啥了 http://weibo.com/1378379264/yzV5y1ftw

    公司内部网站(需要vpn+动态口令才能访问)也被360抓了,这是怎么回事
    8 replies    1970-01-01 08:00:00 +08:00
    skydiver
        1
    skydiver  
       Sep 2, 2012
    360只是学的微软而已。微软也通过IE和必应工具栏抓取用户浏览数据 http://www.williamlong.info/archives/2513.html
    Mac
        2
    Mac  
       Sep 2, 2012
    @skydiver 两码事,用客户端反馈客户浏览的URL,然后再用蜘蛛抓这个擦边球可以有。但LZ的第二个例子,这不是擦边球的问题了,这完全是用客户端上传网页数据,客户端就是蜘蛛了,这问题就大发了,所有的加密访问都成了摆设了。
    jay_chiu
        3
    jay_chiu  
       Sep 2, 2012
    @Mac 没看明白怎么不一样了。应改是一样的,不是客户端上传网页数据,也只是反馈URL,让蜘蛛来抓取。
    ============
    百度联盟的广告是不是很精确,你看过什么页面,他就会有什么广告显示,这是什么原理?
    skydiver
        4
    skydiver  
       Sep 2, 2012
    @Mac 刚才没注意第二个例子。不过看了一下,第二个例子还没有得到证实,截图也没有,不清楚抓取的方式。。。等360的回应吧
    CoX
        5
    CoX  
       Sep 2, 2012
    第二个微博已经删除了,这是啥情况?
    Mac
        6
    Mac  
       Sep 2, 2012
    有意思了,第二条删了,这个就有点那啥了,360的人还回复过这条微博,证实情况存在,在查原因。
    crabhit
        7
    crabhit  
       Sep 3, 2012
    @jay_chiu 可能会track你在百度联盟网站的访问记录 挖掘你的兴趣 比如你逛化妆品网站 又逛女装网站 可能会判定你的性别为女性 年龄大概多少 然后给你推荐避孕药广告 这个大部分广告联盟都会这么干的
    qiuai
        8
    qiuai  
    PRO
       Sep 3, 2012
    接下来这条今天看到的就有点那啥了 http://weibo.com/1378379264/yzV5y1ftw

    没看到这条...
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1684 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 16:23 · PVG 00:23 · LAX 09:23 · JFK 12:23
    ♥ Do have faith in what you're doing.