
robots.txt文件生成工具
在線robots.txt文件生成工具,可以幫助站長(zhǎng)快速生成標(biāo)準(zhǔn)的robots.txt文件,支持一鍵導(dǎo)出,直接傳到網(wǎng)站根目錄即可。
小經(jīng)驗(yàn):強(qiáng)烈建議每個(gè)站根目錄都放置一個(gè)robots.txt的文件,可以直接留空,但一定要放,避免因程序問(wèn)題導(dǎo)致/robots.txt返回其他錯(cuò)誤響應(yīng)內(nèi)容造成不可預(yù)知的結(jié)果,如搜索引擎不收錄等。
Robots協(xié)議(爬蟲(chóng)協(xié)議)是國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范,一般是在一個(gè)web站點(diǎn)的根目錄下寫(xiě)的robots.txt文件,用來(lái)告知搜索引擎哪些頁(yè)面能被抓取,哪些頁(yè)面不能被抓取,可以屏蔽一些網(wǎng)站中比較大的文件,如:圖片,音樂(lè),視頻等,節(jié)省服務(wù)器帶寬;可以屏蔽站點(diǎn)的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設(shè)置網(wǎng)站地圖連接,方便引導(dǎo)蜘蛛爬取頁(yè)面。
robots.txt基本用法
User-agent
User-agent是用來(lái)匹配爬蟲(chóng)的,每個(gè)爬蟲(chóng)都會(huì)有一個(gè)名字,如果你有安裝awstats統(tǒng)計(jì)工具,你就能查看到爬蟲(chóng)的名字,比如百度的爬蟲(chóng)叫BaiDuSpider,Google的爬蟲(chóng)叫Googlebot,*表示所有爬蟲(chóng)。
Disallow
Disallow表示禁止爬蟲(chóng)訪問(wèn)的目錄。Disallow: / 表示攔截整站。
Allow
Allow表示允許爬蟲(chóng)訪問(wèn)的目錄。Allow: / 表示允許整站。
Sitemap
Sitemap用來(lái)指定sitemap的位置。
Crawl-delay
Crawl-delay用來(lái)告訴爬蟲(chóng)兩次訪問(wèn)的間隔,單位是秒。爬蟲(chóng)如果爬得很勤,對(duì)動(dòng)態(tài)網(wǎng)站來(lái)說(shuō),壓力有點(diǎn)大,可能會(huì)導(dǎo)致服務(wù)器負(fù)載增高,用戶訪問(wèn)變慢。
還可以使用通配符
*:匹配任意多個(gè)字符
$:表示URL的結(jié)尾
Robots.txt舉例
不管是Disallow,Allow還是Sitemap,每行只能寫(xiě)一條規(guī)則。
攔截部分文件或目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /aaa.html
允許爬蟲(chóng)訪問(wèn)所有的目錄,有兩種寫(xiě)法
User-agent: *
Disallow:
User-agent: *
Allow: /
通配符的使用,攔截.gif文件
User-agent: *
Disallow: /*.gif$
攔截帶有?的文件
User-agent: *
Disallow: /*?
Sitemap例子
Sitemap: http://y7159.cn/too/sitemap.xml
- IP子網(wǎng)掩碼計(jì)算器
- 網(wǎng)頁(yè)常用色彩
- UserAgent生成器
- 占位圖片生成器
- MD4算法加密工具
- JWT密匙生成器
- 屏幕PPI計(jì)算工具
- 英文字母大小寫(xiě)轉(zhuǎn)工具
- Photoshop快捷鍵大全
- Exce快捷鍵
- CSS代碼壓縮工具
- 卡密生成器
- 文本間隔生成工具
- IP檢測(cè)工具
- 雪花算法ID生成器
- MAC地址生成器
- 圖片裁剪工具
- HSV/CMYK互轉(zhuǎn)工具
- 網(wǎng)址鏈接批量生產(chǎn)器
- JSON轉(zhuǎn)Excel/Csv工具
- PEM文件生成器
- URL編碼解碼工具
- Java代碼格式化
- RC4加密解密工具
- 隨機(jī)IP地址生成器
- 下劃線/駝峰互轉(zhuǎn)
- PHP函數(shù)大全
- 百度推送工具
- JS代碼壓縮工具
- 一鍵采集器
- MQTT代碼生成工具
- UUID生成器
- 文字豎排工具
- 隨機(jī)數(shù)生成器
- WEB安全色
- XML代碼壓縮工具