کاربرد و نحوه ایجاد فایل robots.txt
دارندگان وب سایت ها به جهت ارایه یک دستورالعمل برای ایندکس کردن صفحات سایت خود به روبات های وب از فایل robots.txt استفاده می نمایند. در اصل به این عمل The Robots Exclusion Protocol گویند.
این پروتکل باعث می شود تا قبل از اینکه روبات ها وب سایت مربوطه را بازدید نمایند ابتدا به دنبال فایلی به نام robots.txt در ریشه سایت مربوطه گشته و در صورت وجود با توجه به مجوز های اعلام شده در آن فایل نسبت به انجام عملیات خود اقدام نمایند.
توجه داشته باشید که در استفاده از فایل robots.txt باید دو مورد ذیل را مد نظر قرار دهید :
1- امکان اینکه برخی از روبات ها این فایل را نادیده بگیرند وجود دارد. بخصوص روبات های مخربی که به قصد بررسی نقاط امنیتی آسیب پذیر و یا آنهایی که به قصد جمع آوری ایمیل اکانت ها برای ارسال اسپم سایت را اسکن می نمایند.
2- فایل robots.txt یک فایل بادسترسی عمومی بوده و لذا هر کسی می تواند داخل این فایل را دیده و بخش هایی از سایت را که شما مجوز بازدید آنها را به روبات ها نداده اید را به راحتی مشاهده نماید.
برای طراحی وب سایت به اینجا مراجعه کنید.
بنابر موارد اعلام شده بالا بهتر است از این فایل به هدف مخفی سازی اطلاعات استفاده ننماید.
فایل robots.txt می باید در ریشه سایت قرار گیرد. این فایل یک فایل متنی ساده با یک یا چند رکورد در داخل آن می باشد. نمونه ذیل یک محتوا برای این فایل می باشد :
User-agent: *
Disallow: /این محتوا به این معنی است که تمامی روبات ها (User-agent: *) اجازه بازدید از هیچ یک از صفحات سایت را ندارند (Disallow: /)
یا به عنوان یک نمونه دیگر
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/این محتوا به این معنی است که تمام روبات ها (User-agent: *) امکان بازدید از تمامی بخش های سایت را به جزء 3 فلدر cgi-bin، tmp و junk را دارند.
اگر قصد داشته باشید که سایت تنها برای یک روبات خاص، به طور مثال گوگل، قابل بازدید باشد باید از محتوای ذیل استفاده نمایید :
User-agent: Google
Disallow:User-agent: *
Disallow: /و اگر قصد داشته باشید که سایت تنها برای یک روبات، به طور مثال BadBot، قابل بازدید نباشد باید از محتوای ذیل استفاده نمایید :
User-agent: BadBot
Disallow: /در صورت نیاز به عدم بازدید یک صفحه خاص در سایت توسط تمامی روبات ها می توانید از محتوای ذیل استفاده نمایید :
User-agent: *
Disallow: /testpage.htmlو به همین ترتیب می توانید با توجه به هدف مورد نظر خود نسبت به ایجاد یک فایل robots.txt مناسب برای سایت خود اقدام کرده و در انتها آن را در ریشه سایت خود آپلود نمایید.