فایل robots.txt حاوی دستور العملهایی برای رباتهای گوگل است که به آنها میگوید به کدام صفحات وب میتوانند دسترسی داشته باشند و برعکس! فایلهای Robots.txt برای خزندههای وب موتورهای جستجو مانند Google مرتبط هستند. شما بیش از آنچه فکر می کنید روی موتورهای جستجو کنترل دارید.
درست است؛ شما می توانید دستکاری کنید که چه کسی سایت شما را ببیند، بخزد و ایندکس کند!!! حتی برای صفحات جداگانه سایت تان. برای کنترل این موضوع، باید از فایل robots.txt استفاده کنید. Robots.txt یک فایل متنی ساده است که در دایرکتوری ریشه سایت شما قرار دارد. این فایل به ربات هایی که توسط موتورهای جستجو ارسال می شوند، اطلاع می دهد که کدام صفحات را بخزند و کدام را نادیده بگیرند.
robots.txt ابزار کاملاً قدرتمندی است و به شما این امکان را می دهد که وب سایت خود را به گونه ای به Google ارائه دهید که می خواهید آن را ببیند. موتورهای جستجو قاضی های خشن شخصیت هستند، بنابراین ایجاد یک نگاه عالی ضروری است. Robots.txt، زمانی که به درستی استفاده شود، می تواند فرکانس خزش را بهبود بخشد، که می تواند بر عملکرد seo شما تأثیر بگذارد. در ادامه با ما همراه باشید، تا ببینیم چگونه باید چنین مسیر مشخصی برای گوگل و crawler های آن ایجاد کنیم.
فایل Robots.txt چیست؟
در زمانی که اینترنت فقط یک بچه کوچک با پتانسیل انجام کارهای بزرگ بود، توسعه دهندگان راهی برای خزش و فهرست بندی صفحات جدید در شبکه اینترنت ابداع کردند. این جستوجو گران کوچک وبسایت ها، “ربات” یا “عنکبوت” نام گرفتند. گاهی اوقات این عنکبوت ها در وب سایتهایی سرگردان میشدند که قرار نبود crawl و فهرستبندی شوند! مانند سایت هایی که در حال تعمیر و نگهداری هستند. پس برای رفع این مشکل، یک نقشه راه که هر ربات باید از آن پیروی کند ارائه دادند.
این نقشه راه در ژوئن سال 1994 توسط مجموعهای از متخصصان فناوری اینترنت با عنوان «پروتکل حذف رباتها» نهایی شد.
طراحی سایت
فایل robots.txt همان پروتکل اجرا شده است. robots.txt دستورالعمل هایی را مشخص می کند که هر ربات معتبر (ربات خوب) از جمله ربات های گوگل باید از آنها پیروی کند. برخی از رباتهای غیرقانونی مانند بدافزارها، جاسوس افزارها و موارد مشابه، طبق تعریف خارج از این قوانین عمل میکنند. میتوانید با تایپ کردن هر URL و اضافه کردن: (/robots.txt) در پایان url، نگاهی به پشت پرده هر وب سایتی بیندازید.
فایل robots.txt برای چه مواردی استفاده می شود؟
تا اینجا فهمیدیم که فایل robots.txt عمدتاً برای مدیریت ترافیک خزنده به سایت شما و معمولاً بسته به نوع فایل برای نگه داشتن فایل از Google استفاده می شود. جدول زیر اثر robots.txt با جزئیات شان نشان میدهد.
صفحه وب | میتوانید برای جلوگیری از خزیدن و ایندکس گوگل، از فایل robots.txt برای صفحات وب (HTML، PDF یا سایر قالبهای غیر رسانهای که Google میتواند آنها را بخواند) برای مدیریت ترافیک خزنده استفاده کنید. در کل برای صفحات بی اهمیت و آماده نشده، در سایت شما. هشدار: از فایل robots.txt به عنوان وسیله ای برای مخفی کردن صفحات وب خود از نتایج جستجوی گوگل استفاده نکنید. اگر صفحات دیگر با متن توصیفی به صفحه شما اشاره می کنند، گوگل همچنان می تواند URL را بدون بازدید از صفحه فهرست کند. اگر می خواهید صفحه خود را از نتایج جستجو مسدود کنید، از روش دیگری مانند محافظت با رمز عبور یا noindex استفاده کنید. اگر صفحه وب شما با فایل robots.txt مسدود شده باشد، URL آن همچنان می تواند در نتایج جستجو ظاهر شود، اما نتیجه جستجو توضیحی نخواهد داشت. فایلهای تصویری، فایلهای ویدیویی، فایلهای PDF و سایر فایلهای غیر HTML مستثنی خواهند شد. اگر این نتیجه جستجو را برای صفحه خود میخواهید، ورودی robots.txt را که صفحه را مسدود می کند حذف کنید. اگر می خواهید صفحه را به طور کامل از جستجو پنهان کنید، از روش دیگری استفاده کنید. |
فایل رسانه ایی | از فایل robots.txt برای مدیریت ترافیک خزیدن و همچنین جلوگیری از نمایش فایل های تصویری، ویدیویی و صوتی در نتایج جستجوی گوگل، میتوانید استفاده کنید. این مانع از لینک دهی سایر صفحات یا کاربران به تصویر، ویدیو یا فایل صوتی شما نمی شود. |
فایل منبع | صفحاتی که بدون این منابع بارگذاری میشوند بهطور قابل توجهی تحت تأثیر از دست رفتن قرار خواهند گرفت. برای حل این مشکل میتوانید از یک فایل robots.txt برای مسدود کردن فایلهای منبعی مانند فایلهای تصویر، اسکریپت یا سبک و بیاهمیت استفاده کنید. با این حال، اگر عدم وجود این منابع، درک صفحه را برای خزنده گوگل سختتر میکند، آنها را مسدود نکنید! در غیر این صورت گوگل کار خوبی برای تجزیه و تحلیل صفحاتی که به آن منابع وابسته هستند انجام نمیدهد. |
محل یافتن فایل Robots.txt
فایل robots.txt شما در دایرکتوری ریشه سایت شما ذخیره می شود. برای پیدا کردن آن، FTP cPanel خود را باز کنید. میتوانید فایل را در فهرست وب سایت public_html خود پیدا کنید. چیزی در این فایل ها وجود ندارد که بخواهد سنگین باشد. احتمالاً فقط چند صد بایت حجم داشته باشند. هنگامی که فایل را در ویرایشگر متن خود باز می کنید، با چیزی شبیه به این مواجه خواهید شد:
اگر نمی توانید فایلی را در عملکرد داخلی سایت خود پیدا کنید، باید فایل خود را ایجاد کنید.
ساخت سایت
چگونه یک فایل Robots.txt را کنار هم قرار دهیم؟
Robots.txt یک فایل متنی بسیار ابتدایی است. بنابراین ایجاد آن بسیار ساده است. تنها چیزی که نیاز دارید یک ویرایشگر متن ساده مانند Notepad است. یک برگه را باز کنید و صفحه خالی را به عنوان «robots.txt» ذخیره کنید. اکنون وارد cPanel خود شوید و پوشه public_html را برای دسترسی به دایرکتوری ریشه سایت پیدا کنید. پس از باز شدن، فایل خود را داخل آن بکشید.
در نهایت، باید مطمئن شوید که مجوزهای صحیح را برای فایل تنظیم کرده اید. اساساً، به عنوان مالک، باید فایل را بنویسید، بخوانید و ویرایش کنید، اما هیچ طرف دیگری نباید اجازه انجام این کار را داشته باشد. فایل باید یک کد مجوز “0644” را نمایش دهد. در غیر این صورت، باید این گزینه را تغییر دهید. روی فایل کلیک کنید و “مجوز فایل” را انتخاب کنید. اکنون شما یک robots.txt ساختید. به همین راحتی!
نحوه خوانده شدن Robots.txt
یک فایل robots.txt از بخشهای متعدد «دستورالعملها» تشکیل شده است که هر کدام با یک (کاربر – عامل یا user agent) مشخص شروع میشوند. user agent نام ربات خزنده خاصی است که کد robots.txt با آن صحبت می کند. دو گزینه موجود است:
- شما می توانید از یک علامت عام در robots.txt برای آدرس دادن به همه موتورهای جستجو به طور همزمان استفاده کنید.
- همچنین می توانید موتورهای جستجوی خاص را به صورت جداگانه با آدرس هایی را در robots.txt ثبت میکنید، هدایت کنید.
هنگامی که یک ربات برای خزیدن یک وب سایت مستقر می شود، به سمت بلوک هایی کشیده می شود که آنها را فراخوانی میکند.
دستورالعمل ربات عامل کاربر یا user agent
چند خط اول در هر بلوک ‘user-agent’ است که یک ربات خاص را مشخص می کند. عامل کاربر با نام ربات خاصی مطابقت دارد. بنابراین، اگر میخواهید به Googlebot بگویید که چه کاری انجام دهد، برای مثال، با این موارد شروع کنید:
ربات (user agent: Googlebot)
ربات user agent را فراخوانی کرده به او بگویید که حق ایندکس کدام صفحه ها را دارد. موتورهای جستجو همیشه سعی می کنند دستورالعمل های خاصی که بیشترین ارتباط را با آنها دارد مشخص کنند. برای مثال، اگر دو دستورالعمل دارید، یکی برای Googlebot-Video و دیگری برای Bingbot؛ رباتی که همراه با عامل کاربر “Bingbot” ارائه می شود دستورالعمل ها را دنبال می کند. در حالی که ربات «Googlebot-Video» از این موضوع عبور میکند و به دنبال دستورالعمل خاص تری میرود.
اکثر موتورهای جستجو دارای چند ربات مختلف هستند، که هر کدام دستورالعمل خاصی را پیروی میکنند. در اینجا لیستی از رایج ترین دستور العمل ها آنها آورده شده است.
دستورالعمل میزبان یا Host Directive
دستورالعمل میزبان در حال حاضر تنها توسط Yandex پشتیبانی می شود. هرچند برخی گمانه زنی ها می گویند که گوگل نیز از آن پشتیبانی می کند. این دستورالعمل به کاربر اجازه می دهد تصمیم بگیرد که آیا www را نشان دهد یا خیر. از آنجایی که Yandex تنها پشتیبان تایید شده این دستورالعمل است، توصیه نمی شود به آن اعتماد کنید. در عوض، با ریدایرکت 301، صفحاتی را که نمیخواهید به سایر صفحات مرتبط هدایت کنید.
دستورالعمل غیر مجاز یا Disallow Directive
خط دوم در بلوک دستورات Disallow است. می توانید از این برای تعیین اینکه ربات ها به کدام بخش از سایت دسترسی نداشته باشند استفاده کنید. عدم اجازه خالی بدون مشخص کردن محدودیت های دسترسی، برای ربات ها به این معنی تلقی میشود که اجازه دسترسی به تمام صفحات را دارند. این یعنی رباتها میتوانند خودشان در مورد اینکه کجا بازدید انجام دهند و برعکس، تصمیم بگیرند.
دستورالعمل نقشه سایت (نقشه های سایت XML)
استفاده از دستورالعمل نقشه سایت به موتورهای جستجو می گوید که نقشه سایت XML را کجا پیدا کنند. با این حال، احتمالاً مفید ترین کار این باشد که هر کدام را به ابزارهای وب مستر خاص موتورهای جستجو ارسال کنید. این به این دلیل است که شما میتوانید اطلاعات ارزشمند زیادی را از هر یک در مورد وب سایت خود بیاموزید. با این حال، اگر زمان کوتاهی دارید، دستورالعمل نقشه سایت یا XML یک جایگزین مناسب است.
دستورالعمل Crawl-Delay
یاهو، بینگ و یاندکس می توانند در مورد خزیدن کمی خوشحال باشند، اما در نهایت به دستورالعمل خزیدن پاسخ می دهند. رچند با تاخیر که crawlers را برای مدتی دور نگه می دارد.
چرا از Robots.txt استفاده کنیم؟
اکنون که با اصول اولیه و نحوه استفاده از چند دستورالعمل آشنا شدید، می توانید فایل Robots.txt خود را جمع آوری کنید. با این حال، این مرحله بعدی به نوع محتوای سایت شما می رسد. Robots.txt یک عنصر ضروری برای یک وب سایت موفق نیست. در واقع، سایت شما هنوز هم می تواند به درستی کار کند و بدون آن رتبه خوبی داشته باشد. با این حال، چندین مزیت کلیدی وجود دارد که قبل از رد کردن آن باید از آنها آگاه باشید.
- روباتهای جستوجو گر گوگل را دور از پوشه های خصوصی سایت تان نگه میدارید. جلوگیری از بررسی پوشههای خصوصی توسط رباتها، یافتن و فهرست بندی آنها را بسیار سخت تر میکند.
- منابع را تحت کنترل نگه دارید. هر بار که یک ربات در سایت شما می خزد، پهنای باند و سایر منابع سرور را جذب می کند. برای سایت هایی با حجم زیاد محتوا و صفحات زیاد، مثل سایت های دیجیتال مارکتینگ که می توانند هزاران صفحه داشته باشند، و این صفحات، تنها منابع و بودجه خزش را تخلیه میکنند. بنابراین، میتوانید از robots.txt استفاده کنید تا دسترسی رباتها به اسکریپتها و تصاویر جداگانه را دشوار کنید. این روش منابع ارزشمند را برای بازدید کنندگان واقعی حفظ می کند.
- مکان نقشه سایت خود را مشخص کنید. این نکته بسیار مهمی است، شما میخواهید به خزنده ها اجازه دهید نقشه سایت شما را پیدا کرده و آن را اسکن کنند.
- محتوای تکراری را از SERP ها دور نگه دارید. با افزودن این قانون به Robots.txt، می توانید از ایندکس کردن صفحات حاوی محتوای تکراری توسط خزنده ها جلوگیری کنید.
- شما طبیعتاً می خواهید که موتورهای جستجو به مهمترین صفحات وب سایت شما راه پیدا کنند. با محاصره کردن مودبانه صفحات خاص، می توانید کنترل کنید که کدام صفحات در مقابل جستجوگران قرار می گیرند. (البته مطمئن شوید که هرگز موتورهای جستجو را به طور کامل از دیدن صفحات خاص مسدود نکنید).
محدودیت های یک فایل robots.txt را درک کنید
قبل از ایجاد یا ویرایش فایل robots.txt، باید محدودیتهای این روش مسدود کردن URL را بدانید. بسته به اهداف و موقعیت خود، ممکن است بخواهید مکانیسم های دیگری را در نظر بگیرید تا مطمئن شوید URL های شما در وب قابل یافتن نیستند.
- دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود. دستورالعملهای موجود در فایلهای robots.txt نمیتوانند رفتار خزنده را در سایت شما اعمال کنند. این به خزنده بستگی دارد که از آنها اطاعت کند یا نه. در حالی که Googlebot و سایر خزندههای وب معتبر از دستورالعملهای فایل robots.txt پیروی میکنند، خزندههای دیگر ممکن است این کار را نکنند. بنابراین، اگر میخواهید اطلاعات را از خزندههای وب ایمن نگه دارید، بهتر است از روشهای مسدودسازی دیگر مانند محافظت از فایلهای خصوصی با رمز عبور روی سرور خود استفاده کنید.
- خزنده های مختلف فراخوانی را متفاوت تفسیر می کنند. اگرچه خزندههای وب معتبر دستورالعملهای موجود در فایل robots.txt را دنبال میکنند، اما هر خزنده ممکن است دستورالعملها را متفاوت تفسیر کند. شما باید نحو مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا برخی ممکن است دستورالعمل های خاصی را درک نکنند.
- صفحهای که در robots.txt غیرمجاز است، در صورت پیوند به سایتهای دیگر همچنان میتواند ایندکس شود. اگرچه Google محتوای مسدود شده توسط یک فایل robots.txt را نمیخزد یا فهرستبندی نمیکند، اما ممکن است URL غیرمجاز را در صورتی که از مکانهای دیگر در وب پیوند داده شده باشد، پیدا کرده و فهرستبندی کند. در نتیجه، آدرس URL و احتمالاً سایر اطلاعات عمومی در دسترس مانند متن لنگر در پیوندهای صفحه همچنان می توانند در نتایج جستجوی Google ظاهر شوند. برای جلوگیری از نمایش صحیح URL خود در نتایج جستجوی Google، از فایل های سرور خود با رمز عبور محافظت کنید، از متا تگ noindex یا سربرگ پاسخ استفاده کنید یا صفحه را به طور کامل حذف کنید.
2 دیدگاه دربارهٔ «(Robots.txt)، هر چیزی که باید در مورد آن بدانید»
سلام. ممنون از مقاله خوبتون.
خیلی در مورد robots.txt تحقیق کردم. مقاله شما کامل ترین مقاله ایی بود که خوندم. چون در مورد پیدا کردن فایل robots.txt و ساختن و کنار هم چیدنش هم صحبت کردین.
سلام. خوشحالم مقاله براتون مفید بوده.