دسته‌ها
Uncategorized

مقایسه متاتگ Robots با فایل Robots.txt

مقایسه متاتگ Robots با فایل Robots.txt

 

اگر یک ربات بخواهد صفحه‌ای از یک وب سایت را ایندکس کند، قبل از این عمل robots.txt را مشاهده کرده و دستورات آن را پیروی می‌کند. طبیعتاً اولویت فایل robots.txt نیز از متاتگ robots بیشتر است.
فایل robots.txt به شکل یک فایل واقعی در چنین آدرس‌هایی www.domain.com/robots.txt قرار دارند. ولی متاتگ robots به شکل تگ و قبل از head نیز وجود دارند همانند مثال پایین.

<head>
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
</head>

با یک دستور robots.txt شما می‌توانید صفحات بسیاری را برای ربات‌ها و موتورهای جستجو مسدود کنید. ولی اگر قصد داشته باشید با متاتگ robots چنین عملی را انجام دهید باید در تک‌تک آن صفحات نیز متاتگ را درج کنید.
در فایل robots.txt شما می‌توانید سایت مپ سایت را به ربات‌ها و موتورهای جستجو معرفی کنید ولی با متاتگ امکان‌پذیر نیست.
دستورات متاتگ robots انعطاف‌پذیری بیشتری نسبت به فایل robots.txt نیز دارد.

سؤال: آیا مشکلی در سئو پیش می‌آید اگر از هر دو متد یعنی متاتگ Robots با فایل robots.txt برای جلوگیری از ایندکس شدن یک‌ صفحه‌ ای از سایت استفاده کنیم؟
قطعاً خیر، گوگل هم متنی درباره این موضوع نوشته است و اشاره می‌کند که:

ربات گوگل محتوایی که از طریق robots.txt مسدود شده باشد را ایندکس نمی‌کند ولی ممکن است ما لینک آن محتوا را در مکانی دیگر از وب پیدا کنیم و درنتیجه محتوای موجود در آن آدرس در دسترس عموم قرار بگیرد و در نتایج جستجوی گوگل ظاهر شود. شما می‌توانید برای جلوگیری از این عمل که محتوا در نتایج گوگل نمایش ندهد از متدهای دیگر برای مسدود کردن آدرس‌ها استفاده کنید. به‌ عنوان‌ مثال دایرکتوری آن آدرس را از طریق سرور خود رمزگذاری کنید یا از متاتگ robotx با دستور noindex استفاده کنید.

دسته‌ها
وبلاگ

کاربرد و نحوه ایجاد فایل robots.txt

کاربرد و نحوه ایجاد فایل robots.txt

فایل robots.txt

دارندگان وب سایت ها به جهت ارایه یک دستورالعمل برای ایندکس کردن صفحات سایت خود به روبات های وب از فایل robots.txt استفاده می نمایند. در اصل به این عمل The Robots Exclusion Protocol گویند.

این پروتکل باعث می شود تا قبل از اینکه روبات ها وب سایت مربوطه را بازدید نمایند ابتدا به دنبال فایلی به نام robots.txt در ریشه سایت مربوطه گشته و در صورت وجود با توجه به مجوز های اعلام شده در آن فایل نسبت به انجام عملیات خود اقدام نمایند.

توجه داشته باشید که در استفاده از فایل robots.txt باید دو مورد ذیل را مد نظر قرار دهید :

1-      امکان اینکه برخی از روبات ها این فایل را نادیده بگیرند وجود دارد. بخصوص روبات های مخربی که به قصد بررسی نقاط امنیتی آسیب پذیر و یا آنهایی که به قصد جمع آوری ایمیل اکانت ها برای ارسال اسپم سایت را اسکن می نمایند.

2-      فایل robots.txt یک فایل بادسترسی عمومی بوده و لذا هر کسی می تواند داخل این فایل را دیده و بخش هایی از سایت را که شما مجوز بازدید آنها را به روبات ها نداده اید را به راحتی مشاهده نماید.

برای طراحی وب سایت به اینجا مراجعه کنید.

بنابر موارد اعلام شده بالا بهتر است از این فایل به هدف مخفی سازی اطلاعات استفاده ننماید.

فایل robots.txt می باید در ریشه سایت قرار گیرد. این فایل یک فایل متنی ساده با یک یا چند رکورد در داخل آن می باشد. نمونه ذیل یک محتوا برای این فایل می باشد :

User-agent: *
Disallow: /

این محتوا به این معنی است که تمامی روبات ها (User-agent: *) اجازه بازدید از هیچ یک از صفحات سایت را ندارند (Disallow: /)

یا به عنوان یک نمونه دیگر

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

این محتوا به این معنی است که تمام روبات ها (User-agent: *) امکان بازدید از تمامی بخش های سایت را به جزء 3 فلدر cgi-bin، tmp و junk را دارند.

اگر قصد داشته باشید که سایت تنها برای یک روبات خاص، به طور مثال گوگل، قابل بازدید باشد باید از محتوای ذیل استفاده نمایید :

User-agent: Google
Disallow:

User-agent: *
Disallow: /

و اگر قصد داشته باشید که سایت تنها برای یک روبات، به طور مثال BadBot، قابل بازدید نباشد باید از محتوای ذیل استفاده نمایید :

User-agent: BadBot
Disallow: /

در صورت نیاز به عدم بازدید یک صفحه خاص در سایت توسط تمامی روبات ها می توانید از محتوای ذیل استفاده نمایید :

User-agent: *
Disallow: /testpage.html

و به همین ترتیب می توانید با توجه به هدف مورد نظر خود نسبت به ایجاد یک فایل robots.txt مناسب برای سایت خود اقدام کرده و در انتها آن را در ریشه سایت خود آپلود نمایید.