• <xmp id="4ecky">
  • <menu id="4ecky"></menu>
  • <nav id="4ecky"><strong id="4ecky"></strong></nav><menu id="4ecky"></menu>
  • ?

    深圳網絡營銷,網站推廣,網站優化,關鍵詞SEO,品牌百度推廣

    怎么設置robots.txt文件,屏蔽搜索引擎抓取網站內容?

    來源:樂云踐新作者:樂云踐新發布時間:2017-12-15
        怎么設置robots.txt文件,屏蔽搜索引擎抓取網站內容。robots.txt用于禁止網絡爬蟲訪問網站指定目錄。robots.txt的格式采用面向行的語法:空行、注釋行(以#打頭)、規則行。規則行的格式為:Field: value。常見的規則行:User-Agent、Disallow、Allow行。
      我們在網站優化和網站設計時偶爾會碰到有些文件和內容不想讓搜索引擎收錄展現出來,這時需要我們為網站設置robots.txt文件
      先在站點的根目錄下新建一個robots.txt文本文件。當搜索蜘蛛訪問這個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索蜘蛛就會先讀取這個文件的內容: 
    文件寫法
    User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
    Disallow: / 這里定義是禁止爬尋站點所有的內容
    Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
    Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
    Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
    Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
    Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
    Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
    Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
    Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
    Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
    Allow: .gif$ 允許抓取網頁和gif格式圖片
    Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
    下面列出來的是比較出名的搜索引擎蜘蛛名稱:

    搜索引擎的User-Agent對應名稱

    搜索引擎 User-Agent值
    Google googlebot
    百度 baiduspider
    雅虎 slurp
    MSN msnbot
    Alexa is_archiver

    Alltheweb的蜘蛛: FAST-WebCrawler/ 
    INKTOMI的蜘蛛: Slurp
    SOGOU的蜘蛛:Sogou web spider/4.0和Sogou inst spider/4.0
    按照以上的說明,我們可以給大案一個示例,以Sogou的來說,禁止抓取的robots.txt代碼寫法如下:
    User-agent: Sogou web spider/4.0
    Disallow: /goods.php 
    Disallow: /category.php
      

    我在Linux上抓包觀察到的一些搜索引擎訪問記錄:

    # tcpdump -n -nn -A -l -s1024 'tcp port 80'|grep User-Agent
    User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    User-Agent: Googlebot-Image/1.0
    User-Agent: Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 5 subscribers; feed-id=4619555564728728616)
    User-Agent: Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)
    User-Agent: Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
    User-Agent: Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)
    現實中的robots.txt
    淘寶屏蔽百度
    淘寶屏蔽了百度抓?。?008年9月),http://www.taobao.com/robots.txt的內容:
     
    User-agent: Baiduspider
    Disallow: /
     
    User-agent: baiduspider
    Disallow: /
    百度與360的搜索引擎之爭
    2012年8月,360推出搜索引擎,并與百度發生正面沖突。百度工程師跑出來說360違反robots協議,偷竊百度內容。以百度知道為例,http://zhidao.baidu.com/robots.txt的內容大致是這樣:
     
    User-agent: Baiduspider
    Disallow: /w?
    Allow: /
     
    User-agent: Googlebot
    User-agent: MSNBot
    User-agent: Baiduspider-image
    User-agent: YoudaoBot
    User-agent: Sogou web spider
    User-agent: Sogou inst spider
    User-agent: Sogou spider2
    User-agent: Sogou blog
    User-agent: Sogou News Spider
    User-agent: Sogou Orion spider
    User-agent: JikeSpider
    User-agent: Sosospider
    Allow: /
     
    User-agent: *
    Disallow: /
    也就是說對360爬蟲而言,應該走最后一條規則,也就是禁止抓取百度知道所有內容。但從360搜索看,有百度知道的內容。
     
    本文標簽:搜索引擎抓取
    ?


    地址:深圳市寶安區寶安大道4018號華豐國際大廈506

    電話: 17688744199

    郵箱:963359518@qq.com

    QQ:1605354269?


    Copyright? 深圳市樂云踐新媒體技術有限公司 粵ICP備15060126號 leyunseo.com.All Rights Reser







    微信二維碼

    地址:深圳市寶安區寶安大道4018號華豐國際大廈506

    聯系人: 17688744199

    郵箱:963359518@qq.com

    QQ:1605354269?


    Copyright? 深圳市樂云踐新媒體技術有限公司 粵ICP備15060126號 leyunseo.com.All Rights Reser


    天堂资源とまりせっくす 句容市| 梓潼县| 黄浦区| 安远县| 仙居县| 顺昌县| 高淳县| 宝兴县| 海伦市| 万盛区| 鹿泉市| 仙游县| 丰都县| 岳普湖县| 二连浩特市| 东港市| 奉化市| 中阳县| 扎鲁特旗| 曲沃县| 临江市| 灵台县| 乡城县| 阿拉善左旗| 肥西县| 西盟| 肃宁县| 新沂市| 井冈山市| 大渡口区| 岗巴县| 竹北市| 邢台县| 抚松县| 平罗县| 白银市| 嘉善县| 佛学| 合山市| 宁晋县| 宿州市| http://444 http://444 http://444 http://444 http://444 http://444