وبلاگ
ربات های خزنده گوگل (Googlebot) چیست؟
ربات های خزنده گوگل (Googlebot) به تمام صفحات جدید سر میزند و آنها را به اصطلاح کراول میکند که در نتایج گوگل نمایش داداه شوند.
طراحی سایت
ربات های خزنده گوگل (Googlebot)
ربات های خزنده گوگل (Googlebot) که توسط خود شرکت گوگل برای جمع آوری اطلاعات مورد نیاز از صفحات و ایجاد یک فهرست قابل جستجو از در فضای وب طراحی شده و استفاده می شود.
ربات های خزنده گوگل (Googlebot) دارای خزنده های متفاوتی میباشد از جمله : خزنده های مخصوص به صفحات موبایل، دسکتاپ و همچنین خزنده های تخصصی برای صفحات اخبار، تصاویر و ویدیوها است.
خزندههای بیشتری وجود دارد که شرکت Google برای کارهای خاص خود از آن استفاده میکند، و هر خزنده خود را با یک رشته متن متفاوت به نام “عامل کاربر” تفکیک و شناسایی میکند.
ربات های خزنده گوگل از دید کاربران به تمام مقالات شما نگاه میکنند و اگر کاربران از صفحات شما رضایت داشته باشند نسبت به فاکتور های مشخص به شما بها خواهد داد.
Googlebot روی هزاران دستگاه اجرا می شود. آنها تعیین می کنند که چقدر سریع و چه چیزی در وب سایت ها خزیده شود. اما آنها سرعت خزیدن خود را کاهش می دهند تا وب سایت ها را تحت تأثیر بیش از حد قرار ندهند.
بیایید به روند کراول کردن آنها برای ایجاد صفحه ای در دنیای وب نگاه کنیم:
Googlebot چگونه وب را می خزد و فهرست می کند؟
گوگل در گذشته چند نسخه از پارامتر های خود را به اشتراک گذاشته است که ما جدید ترین ها را برای شما در این مقاله آورده ایم.
ربات های شرکت گوگل (Google) خزیدن خود را با فهرستی از نشانیهای اینترنتی که از منابع مختلف جمعآوری میکند، مانند صفحات، نقشههای سایت، فیدهای RSS و نشانیهای اینترنتی ارسال شده در کنسول جستجوی Google یا Indexing API شروع میکند. آنچه را که می خواهد بخزد، اولویت بندی می کند، صفحات را واکشی می کند، و کپی هایی از صفحات را ذخیره می کند.
این صفحات برای یافتن پیوندهای بیشتر پردازش میشوند، از جمله پیوندهایی به مواردی مانند درخواستهای API، جاوا اسکریپت و CSS که Google برای ارائه یک صفحه به آن نیاز دارد.
همه این درخواستهای اضافی خزیده و ذخیره میشوند (ذخیره میشوند). گوگل از یک سرویس رندر استفاده می کند که از این منابع ذخیره شده برای مشاهده صفحاتی مشابه آنچه که یک کاربر انجام می دهد استفاده می کند.
دوباره این را پردازش می کند و هر گونه تغییر در صفحه یا پیوندهای جدید را جستجو می کند. محتوای صفحات رندر شده همان چیزی است که در فهرست گوگل ذخیره شده و قابل جستجو است. هر پیوند جدیدی که پیدا شد به سطل URL ها برمی گردد تا بخزد.
ما جزئیات بیشتری در مورد این فرآیند در مقاله خود در مورد نحوه کار موتورهای جستجو داریم .
نحوه کنترل ربات های خزنده گوگل (Googlebot)
گوگل چند راه برای کنترل مواردی که خزیده و نمایه می شوند به شما ارائه می دهد.
- Robots.txt: این فایل در وب سایت شما به شما امکان می دهد آنچه را که خزیده می شود کنترل کنید.
- Nofollow: یک ویژگی پیوند یا برچسب متا روبات است که نشان می دهد پیوندی نباید دنبال شود. این فقط یک اشاره محسوب می شود، بنابراین ممکن است نادیده گرفته شود.
- نرخ خزیدن خود را تغییر دهید این ابزار در کنسول جستجوی گوگل به شما اجازه می دهد تا سرعت خزیدن گوگل را کاهش دهید.
برای آشنایی با Robots.txt بیشتر بخوانید —–> Robots.txt چیست؟
راه های کنترل ایندکس گوگل
محتوای خود را حذف کنید – اگر صفحه ای را حذف کنید، چیزی برای فهرست بندی وجود ندارد. نقطه ضعف این است که هیچ کس دیگری نیز نمی تواند به آن دسترسی داشته باشد و ممکنه با اررور 404 مواجه شوید.
دسترسی به محتوا را محدود کنید این کار که کمی هم سطح آن برای کاربران مبتدی پیشرفته بنظر می رسد اینست که با فایل .htaccess یا از طریق کنترل پنل هاست (دایرکت ادمین یا سی پنل فرقی نمی کند) به پوشه سایت یک پسورد یا گذرواژه اضافه کنید.
بله برای مسدود کردن کامل یک سایت از گوگل، طبق راهکاری که خود گوگل پیشنهاد کرده، بهترین کار password-protecting server directories است. پس وارد هاست خود شوید، روی پوشه سایت کلیک راست کرده و گزینه Password Protect را زده و یک نام کاربری و گذرواژه برای آن انتخاب کنید.
اکنون آدرس سایت را وارد کنید تا با یک برگه سفید روبرو شوید، اکنون برای وارد شدن به مدیریت سایت مسدود شده خود کافیست آدرس ورود به آن را بزنید تا نام کاربری و گذرواژه درخواست شود و بتوانید وارد پیشخوان شوید.
چطور در وردپرس از ایندکس سایت تازه جلوگیری کنیم؟
در وردپرس کار بسیار ساده ای میباشد و بصورت گرافیکی و ساده میتوانید از ایندکس موتور های جستجو جلوگیری کنید.
خود وردپرس به محض راه اندازی سایت این امکان را به شما میدهد که از ایندکس شدن سایت جلوگیری کنید، این کار به وسیله فایل ربات انجام می شود، اما همانطور که گفتیم فقط از ایندکس شدن سایت جلوگیری می کند، ولی از اینکه گوگل سایت شما را پیدا نکند و آن را زیر و رو نکند، خیر، جلوگیری نمی کند.
روش اول تنظیمات وردپرس:
با این روش شما از موتورهای جستجو درخواست میکنید تا محتوای سایتتان را بررسی نکنند. وقتی چنین گزینه ای را انتخاب کنید، یک کد متا مثل زیر به هدر سایت شما اضافه می شود:
<META NAME=”robots” CONTENT=”noindex”>
از این به بعد موتورهای جستجو کاری با سایت شما نخواهند داشت، اما همانطور که خود گوگل هم قبلا گفته، شاید این اشکال رخ دهد و ربات آنها از جایی دیگر وارد سایت شود و آن را کاوش کند.
برای معرفی سایت های وردپرسی کلیک کنید ———-> 21نمونه وب سایت وردپرسی
روش دوم در وردپرس: (استفاده از Password-Protected Directories)
وارد هاست وبسایت خودت شو، در بخش امنیت سایت گزینه Directory Password را انتخاب کرده و نام کاربری و گذرواژه خود را وارد کنید.
اکنون سایت شما فقط با این اطلاعات قابل دسترسی است و خزنده ها دیگر اجازه ورود به سایت را ندارند. عملا سایت شما مخفی است و هیچ موتور یا خزنده ای برای ایندکس آن نمیتواند به پایگاه داده شما نفوذ کند.
راه سوم: استفاده از افزونه برای رمزگذاری کل سایت
یکی از دلایل استفاده از CMS وردپرس برای طراحی سایت داشتن افزونه های زیادی است که هم بصورت رایگان هم پولی دارد. اکنون یکی از این افزونه ها به شما کمک می کند روی سایت خود رمزگذاری کنید تا از ایندکس جلوگیری کنید.
افزونه رایگان Password Protected کمک می کند این دفعه به جای دست به کار شدن با استرس و نگرانی در هاست خودتان، مستقیما از پیشخوان بتوانید روی سایت خود رمز بگذارید و از ایندکس شدن صفحاتتون جلوگیری کنید. اگر با این کار راحت هستید، خب میتوانید از این افزونه استفاده کنید.
چطور یک برگه یا آدرس را برای ایندکس گوگل مسدود کنیم؟
پیشنهاد من برای جلوگیری از ایندکس شدن صفحات شما اینه که به کمک افزونه سئو Yoast SEO اینکار را انجام دهید. وارد ویرایش یک برگه شوید، در بخش تنظیمات پیشرفته، دسترسی ربات های موتورهای جستجو را به آن برگه مسدود کنید تا گوگل و دیگر موتورهای جستجو به آن دسترسی نداشته باشند.
البته زمانی که شما یک برگه را از ایندکس شدن محروم کنید، همچنان لینک های آن برای این موتورهای جستجو قابل مشاهده خواهد بود.
چطور آدرس های ایندکس شده را از گوگل حذف کنیم؟
آیا تا به حال به این فکر کرده اید که چطور میتوان یک آدرس URL را از گوگل حذف کرد. شاید تابحال به این موضوع برخورد نکرده باشید، اما یک سئو کار حرفه ای، برای بهینه سازی سایت دست به تغییراتی در ایندکس گوگل میزند همچنین برای کنترل میزان ایندکس سایت، یکی از بهترین راه ها اینست که مستقیما از گوگل بخواهید آدرس های مورد نظر شما را از سایتش حذف کند.
برای دستکاری ایندکس گوگل شما نیاز به دسترسی گوگل سرچ کنسول خواهید داشت و برای اینکار به ثبت نام سایت خود در سرچ کنسول گوگل نیاز خواهید داشت، سپس وارد نسخه قدیمی یعنی گوگل وبمستر تولز Google Webmaster Tools شوید و از بخش ایندکس گوگل Google Index روی گزینه Remove URLs کلیک کنید.
کافیست در این بخش روی دکمه Temporarily hide کلیک کنید، آدرس URL مورد نظرتان که میخواهید حذف شود را وارد کنید و منتظر بمانید که درخواست شما ثبت شود. پس از این کمی طول می کشد تا گوگل سعی کند آدرسی که وارد کرده اید را حذف کند.