Robots.txt

(Robots.txt)، هر چیزی که باید در مورد آن بدانید

فایل robots.txt حاوی دستور العمل‌هایی برای ربات‌های گوگل است که به آن‌ها می‌گوید به کدام صفحات وب می‌توانند دسترسی داشته باشند و برعکس! فایل‌های Robots.txt برای خزنده‌های وب موتورهای جستجو مانند Google مرتبط هستند. شما بیش از آنچه فکر می کنید روی موتورهای جستجو کنترل دارید.

درست است؛ شما می توانید دستکاری کنید که چه کسی سایت شما را ببیند، بخزد و ایندکس کند!!! حتی برای صفحات جداگانه سایت تان. برای کنترل این موضوع، باید از فایل robots.txt استفاده کنید. Robots.txt یک فایل متنی ساده است که در دایرکتوری ریشه سایت شما قرار دارد. این فایل به ربات هایی که توسط موتورهای جستجو ارسال می شوند، اطلاع می دهد که کدام صفحات را بخزند و کدام را نادیده بگیرند.

robots.txt ابزار کاملاً قدرتمندی است و به شما این امکان را می دهد که وب سایت خود را به گونه ای به Google ارائه دهید که می خواهید آن را ببیند. موتورهای جستجو قاضی های خشن شخصیت هستند، بنابراین ایجاد یک نگاه عالی ضروری است. Robots.txt، زمانی که به درستی استفاده شود، می تواند فرکانس خزش را بهبود بخشد، که می تواند بر عملکرد seo شما تأثیر بگذارد. در ادامه با ما همراه باشید، تا ببینیم چگونه باید چنین مسیر مشخصی برای گوگل و crawler های آن ایجاد کنیم.

فایل Robots.txt چیست؟

در زمانی که اینترنت فقط یک بچه کوچک با پتانسیل انجام کارهای بزرگ بود، توسعه دهندگان راهی برای خزش و فهرست بندی صفحات جدید در شبکه اینترنت ابداع کردند. این جست‌وجو گران کوچک وبسایت ها، “ربات” یا “عنکبوت” نام گرفتند. گاهی اوقات این عنکبوت ها در وب‌ سایت‌هایی سرگردان می‌شدند که قرار نبود crawl و فهرست‌بندی شوند! مانند سایت‌ هایی که در حال تعمیر و نگهداری هستند. پس برای رفع این مشکل، یک نقشه راه که هر ربات باید از آن پیروی کند ارائه دادند.

این نقشه راه در ژوئن سال 1994 توسط مجموعه‌ای از متخصصان فناوری اینترنت با عنوان «پروتکل حذف ربات‌ها» نهایی شد.

طراحی سایت

فایل robots.txt همان پروتکل اجرا شده است. robots.txt دستورالعمل هایی را مشخص می کند که هر ربات معتبر (ربات خوب) از جمله ربات های گوگل باید از آنها پیروی کند. برخی از ربات‌های غیرقانونی مانند بدافزارها، جاسوس‌ افزارها و موارد مشابه، طبق تعریف خارج از این قوانین عمل می‌کنند. می‌توانید با تایپ کردن هر URL و اضافه کردن: (/robots.txt) در پایان url، نگاهی به پشت پرده هر وب‌ سایتی بیندازید.

Robots.txt و سئو
اهمیت Robots.txt در سئو

فایل robots.txt برای چه مواردی استفاده می شود؟

تا اینجا فهمیدیم که فایل robots.txt عمدتاً برای مدیریت ترافیک خزنده به سایت شما و معمولاً بسته به نوع فایل برای نگه داشتن فایل از Google استفاده می شود. جدول زیر اثر robots.txt با جزئیات شان نشان می‌دهد.

صفحه وبمی‌توانید برای جلوگیری از خزیدن و ایندکس گوگل، از فایل robots.txt برای صفحات وب (HTML، PDF یا سایر قالب‌های غیر رسانه‌ای که Google می‌تواند آنها را بخواند) برای مدیریت ترافیک خزنده استفاده کنید. در کل برای صفحات بی اهمیت و آماده نشده، در سایت شما.
هشدار: از فایل robots.txt به عنوان وسیله ای برای مخفی کردن صفحات وب خود از نتایج جستجوی گوگل استفاده نکنید.
اگر صفحات دیگر با متن توصیفی به صفحه شما اشاره می کنند، گوگل همچنان می تواند URL را بدون بازدید از صفحه فهرست کند. اگر می خواهید صفحه خود را از نتایج جستجو مسدود کنید، از روش دیگری مانند محافظت با رمز عبور یا noindex استفاده کنید.
اگر صفحه وب شما با فایل robots.txt مسدود شده باشد، URL آن همچنان می تواند در نتایج جستجو ظاهر شود، اما نتیجه جستجو توضیحی نخواهد داشت. فایل‌های تصویری، فایل‌های ویدیویی، فایل‌های PDF و سایر فایل‌های غیر HTML مستثنی خواهند شد. اگر این نتیجه جستجو را برای صفحه خود می‌خواهید، ورودی robots.txt را که صفحه را مسدود می کند حذف کنید. اگر می خواهید صفحه را به طور کامل از جستجو پنهان کنید، از روش دیگری استفاده کنید.
فایل رسانه اییاز فایل robots.txt برای مدیریت ترافیک خزیدن و همچنین جلوگیری از نمایش فایل های تصویری، ویدیویی و صوتی در نتایج جستجوی گوگل، می‌توانید استفاده کنید. این مانع از لینک دهی سایر صفحات یا کاربران به تصویر، ویدیو یا فایل صوتی شما نمی شود.
فایل منبعصفحاتی که بدون این منابع بارگذاری می‌شوند به‌طور قابل‌ توجهی تحت تأثیر از دست رفتن قرار خواهند گرفت. برای حل این مشکل می‌توانید از یک فایل robots.txt برای مسدود کردن فایل‌های منبعی مانند فایل‌های تصویر، اسکریپت یا سبک و بی‌اهمیت استفاده کنید. با این حال، اگر عدم وجود این منابع، درک صفحه را برای خزنده گوگل سخت‌تر می‌کند، آن‌ها را مسدود نکنید! در غیر این صورت گوگل کار خوبی برای تجزیه و تحلیل صفحاتی که به آن منابع وابسته هستند انجام نمی‌دهد.
تاثیر فایل robots.txt بر انواع فایل ها

محل یافتن فایل Robots.txt

فایل robots.txt شما در دایرکتوری ریشه سایت شما ذخیره می شود. برای پیدا کردن آن، FTP cPanel خود را باز کنید. می‌توانید فایل را در فهرست وب سایت public_html خود پیدا کنید. چیزی در این فایل ها وجود ندارد که بخواهد سنگین باشد. احتمالاً فقط چند صد بایت حجم داشته باشند. هنگامی که فایل را در ویرایشگر متن خود باز می کنید، با چیزی شبیه به این مواجه خواهید شد:

ویرایش Robots.txt
Robots.txt و ساخت آن

اگر نمی توانید فایلی را در عملکرد داخلی سایت خود پیدا کنید، باید فایل خود را ایجاد کنید.

ساخت سایت

چگونه یک فایل Robots.txt را کنار هم قرار دهیم؟

Robots.txt یک فایل متنی بسیار ابتدایی است. بنابراین ایجاد آن بسیار ساده است. تنها چیزی که نیاز دارید یک ویرایشگر متن ساده مانند Notepad است. یک برگه را باز کنید و صفحه خالی را به عنوان «robots.txt» ذخیره کنید. اکنون وارد cPanel خود شوید و پوشه public_html را برای دسترسی به دایرکتوری ریشه سایت پیدا کنید. پس از باز شدن، فایل خود را داخل آن بکشید.

در نهایت، باید مطمئن شوید که مجوزهای صحیح را برای فایل تنظیم کرده اید. اساساً، به عنوان مالک، باید فایل را بنویسید، بخوانید و ویرایش کنید، اما هیچ طرف دیگری نباید اجازه انجام این کار را داشته باشد. فایل باید یک کد مجوز “0644” را نمایش دهد. در غیر این صورت، باید این گزینه را تغییر دهید. روی فایل کلیک کنید و “مجوز فایل” را انتخاب کنید. اکنون شما یک robots.txt ساختید. به همین راحتی!

نحوه خوانده شدن Robots.txt

یک فایل robots.txt از بخش‌های متعدد «دستورالعمل‌ها» تشکیل شده است که هر کدام با یک (کاربر – عامل یا user agent) مشخص شروع می‌شوند. user agent نام ربات خزنده خاصی است که کد robots.txt با آن صحبت می کند. دو گزینه موجود است:

  • شما می توانید از یک علامت عام در robots.txt برای آدرس دادن به همه موتورهای جستجو به طور همزمان استفاده کنید.
  • همچنین می توانید موتورهای جستجوی خاص را به صورت جداگانه با آدرس هایی را در robots.txt ثبت می‌کنید، هدایت کنید.

هنگامی که یک ربات برای خزیدن یک وب سایت مستقر می شود، به سمت بلوک هایی کشیده می شود که آنها را فراخوانی می‌کند.

کاردبرد Robots.txt در سئو
Robots.txt راهنمای ربات های گوگل

دستورالعمل ربات عامل کاربر یا user agent

چند خط اول در هر بلوک ‘user-agent’ است که یک ربات خاص را مشخص می کند. عامل کاربر با نام ربات خاصی مطابقت دارد. بنابراین، اگر می‌خواهید به Googlebot بگویید که چه کاری انجام دهد، برای مثال، با این موارد شروع کنید:

ربات (user agent: Googlebot)

ربات user agent را فراخوانی کرده به او بگویید که حق ایندکس کدام صفحه ها را دارد. موتورهای جستجو همیشه سعی می کنند دستورالعمل های خاصی که بیشترین ارتباط را با آنها دارد مشخص کنند. برای مثال، اگر دو دستورالعمل دارید، یکی برای Googlebot-Video و دیگری برای Bingbot؛ رباتی که همراه با عامل کاربر “Bingbot” ارائه می شود دستورالعمل ها را دنبال می کند. در حالی که ربات «Googlebot-Video» از این موضوع عبور می‌کند و به دنبال دستورالعمل خاص‌ تری می‌رود.

اکثر موتورهای جستجو دارای چند ربات مختلف هستند، که هر کدام دستورالعمل خاصی را پیروی می‌کنند. در اینجا لیستی از رایج ترین دستور العمل ها آنها آورده شده است.

دستورالعمل میزبان یا Host Directive

دستورالعمل میزبان در حال حاضر تنها توسط Yandex پشتیبانی می شود. هرچند برخی گمانه زنی ها می گویند که گوگل نیز از آن پشتیبانی می کند. این دستورالعمل به کاربر اجازه می دهد تصمیم بگیرد که آیا www را نشان دهد یا خیر. از آنجایی که Yandex تنها پشتیبان تایید شده این دستورالعمل است، توصیه نمی شود به آن اعتماد کنید. در عوض، با ریدایرکت 301، صفحاتی را که نمی‌خواهید به سایر صفحات مرتبط هدایت کنید.

دستورالعمل غیر مجاز یا Disallow Directive

خط دوم در بلوک دستورات Disallow است. می توانید از این برای تعیین اینکه ربات ها به کدام بخش از سایت دسترسی نداشته باشند استفاده کنید. عدم اجازه خالی بدون مشخص کردن محدودیت های دسترسی، برای ربات ها به این معنی تلقی می‌شود که اجازه دسترسی به تمام صفحات را دارند. این یعنی ربات‌ها می‌توانند خودشان در مورد اینکه کجا بازدید انجام دهند و برعکس، تصمیم بگیرند.

دستورالعمل نقشه سایت (نقشه های سایت XML)

استفاده از دستورالعمل نقشه سایت به موتورهای جستجو می گوید که نقشه سایت XML را کجا پیدا کنند. با این حال، احتمالاً مفید ترین کار این باشد که هر کدام را به ابزارهای وب مستر خاص موتورهای جستجو ارسال کنید. این به این دلیل است که شما می‌توانید اطلاعات ارزشمند زیادی را از هر یک در مورد وب سایت خود بیاموزید. با این حال، اگر زمان کوتاهی دارید، دستورالعمل نقشه سایت یا XML یک جایگزین مناسب است.

دستورالعمل Crawl-Delay

یاهو، بینگ و یاندکس می توانند در مورد خزیدن کمی خوشحال باشند، اما در نهایت به دستورالعمل خزیدن پاسخ می دهند. رچند با تاخیر که crawlers را برای مدتی دور نگه می دارد.

چرا از Robots.txt استفاده کنیم؟

اکنون که با اصول اولیه و نحوه استفاده از چند دستورالعمل آشنا شدید، می توانید فایل Robots.txt خود را جمع آوری کنید. با این حال، این مرحله بعدی به نوع محتوای سایت شما می رسد. Robots.txt یک عنصر ضروری برای یک وب سایت موفق نیست. در واقع، سایت شما هنوز هم می تواند به درستی کار کند و بدون آن رتبه خوبی داشته باشد. با این حال، چندین مزیت کلیدی وجود دارد که قبل از رد کردن آن باید از آنها آگاه باشید.

  1. روبات‌های جست‌وجو گر گوگل را دور از پوشه‌ های خصوصی سایت تان نگه می‌دارید. جلوگیری از بررسی پوشه‌های خصوصی توسط ربات‌ها، یافتن و فهرست‌ بندی آنها را بسیار سخت‌ تر می‌کند.
  2. منابع را تحت کنترل نگه دارید. هر بار که یک ربات در سایت شما می خزد، پهنای باند و سایر منابع سرور را جذب می کند. برای سایت هایی با حجم زیاد محتوا و صفحات زیاد، مثل سایت های دیجیتال مارکتینگ که می توانند هزاران صفحه داشته باشند، و این صفحات، تنها منابع و بودجه خزش را تخلیه می‌کنند. بنابراین، می‌توانید از robots.txt استفاده کنید تا دسترسی ربات‌ها به اسکریپت‌ها و تصاویر جداگانه را دشوار کنید. این روش منابع ارزشمند را برای بازدید کنندگان واقعی حفظ می کند.
  3. مکان نقشه سایت خود را مشخص کنید. این نکته بسیار مهمی است، شما می‌خواهید به خزنده ها اجازه دهید نقشه سایت شما را پیدا کرده و آن را اسکن کنند.
  4. محتوای تکراری را از SERP ها دور نگه دارید. با افزودن این قانون به Robots.txt، می توانید از ایندکس کردن صفحات حاوی محتوای تکراری توسط خزنده ها جلوگیری کنید.
  5. شما طبیعتاً می خواهید که موتورهای جستجو به مهمترین صفحات وب سایت شما راه پیدا کنند. با محاصره کردن مودبانه صفحات خاص، می توانید کنترل کنید که کدام صفحات در مقابل جستجوگران قرار می گیرند. (البته مطمئن شوید که هرگز موتورهای جستجو را به طور کامل از دیدن صفحات خاص مسدود نکنید).

محدودیت های یک فایل robots.txt را درک کنید

قبل از ایجاد یا ویرایش فایل robots.txt، باید محدودیت‌های این روش مسدود کردن URL را بدانید. بسته به اهداف و موقعیت خود، ممکن است بخواهید مکانیسم های دیگری را در نظر بگیرید تا مطمئن شوید URL های شما در وب قابل یافتن نیستند.

  • دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود. دستورالعمل‌های موجود در فایل‌های robots.txt نمی‌توانند رفتار خزنده را در سایت شما اعمال کنند. این به خزنده بستگی دارد که از آنها اطاعت کند یا نه. در حالی که Googlebot و سایر خزنده‌های وب معتبر از دستورالعمل‌های فایل robots.txt پیروی می‌کنند، خزنده‌های دیگر ممکن است این کار را نکنند. بنابراین، اگر می‌خواهید اطلاعات را از خزنده‌های وب ایمن نگه دارید، بهتر است از روش‌های مسدودسازی دیگر مانند محافظت از فایل‌های خصوصی با رمز عبور روی سرور خود استفاده کنید.
  • خزنده های مختلف فراخوانی را متفاوت تفسیر می کنند. اگرچه خزنده‌های وب معتبر دستورالعمل‌های موجود در فایل robots.txt را دنبال می‌کنند، اما هر خزنده ممکن است دستورالعمل‌ها را متفاوت تفسیر کند. شما باید نحو مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا برخی ممکن است دستورالعمل های خاصی را درک نکنند.
  • صفحه‌ای که در robots.txt غیرمجاز است، در صورت پیوند به سایت‌های دیگر همچنان می‌تواند ایندکس شود. اگرچه Google محتوای مسدود شده توسط یک فایل robots.txt را نمی‌خزد یا فهرست‌بندی نمی‌کند، اما ممکن است URL غیرمجاز را در صورتی که از مکان‌های دیگر در وب پیوند داده شده باشد، پیدا کرده و فهرست‌بندی کند. در نتیجه، آدرس URL و احتمالاً سایر اطلاعات عمومی در دسترس مانند متن لنگر در پیوندهای صفحه همچنان می توانند در نتایج جستجوی Google ظاهر شوند. برای جلوگیری از نمایش صحیح URL خود در نتایج جستجوی Google، از فایل های سرور خود با رمز عبور محافظت کنید، از متا تگ noindex یا سربرگ پاسخ استفاده کنید یا صفحه را به طور کامل حذف کنید.
Robots.txt، نقشه خزیدن گوگل
استفاده از Robots.txt در سایت
5/5 - (6 امتیاز)

2 دیدگاه دربارهٔ «(Robots.txt)، هر چیزی که باید در مورد آن بدانید»

  1. صبا نوری

    سلام. ممنون از مقاله خوبتون.

    خیلی در مورد robots.txt تحقیق کردم. مقاله شما کامل ترین مقاله ایی بود که خوندم. چون در مورد پیدا کردن فایل robots.txt و ساختن و کنار هم چیدنش هم صحبت کردین.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.