مشکلات رایج robots.txt
رایجترین مشکلات robots.txt، تأثیری که میتوانند بر وبسایت شما و رتبه آن در موتورهای جستجو داشته باشند، و نحوه رفع آنها را کشف کنید.
Robots.txt یک ابزار مفید و نسبتا قدرتمند برای آموزش خزندههای موتورهای جستجو در مورد نحوه خزش وب سایت شما است. همه کاره نیست (به قول خود گوگل، “مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست”) اما میتواند به جلوگیری از Load بیش از حد سایت یا سرور شما توسط رباتهای خزنده کمک کند.
اگر این فایل راهنمای خزش را در سایت خود دارید، باید مطمئن شوید که به درستی از آن استفاده میشود. به ویژه اگر از URLهای پویا یا روشهای دیگری استفاده میکنید که از نظر تئوری بی نهایت تعداد صفحه تولید میکنند، این امر مهم است.
در این راهنما، ما به برخی از رایجترین مشکلات مربوط به فایل robots.txt، تأثیری که میتوانند بر وبسایت شما و رتبه آن در موتورهای جستجو داشته باشند، و حتی اگر فکر میکنید این مشکلات رخ دادهاند، چگونه میتوان آنها را برطرف کرد میپردازیم.
اما ابتدا، اجازه دهید نگاهی گذرا به robots.txt و فرعیات آن بیندازیم.
Robots.txt چیست؟
Robots.txt از فرمت فایل متنی ساده استفاده میکند و در فهرست اصلی وب سایت شما قرار میگیرد. باید در بالاترین دایرکتوری سایت شما باشد. اگر آن را در یک زیر شاخه قرار دهید، موتورهای جستجو به سادگی آن را نادیده میگیرند.
با وجود قدرت زیاد، robots.txt اغلب یک سند نسبتا ساده است و یک فایل robots.txt اولیه را میتوان در عرض چند ثانیه با استفاده از ویرایشگری مانند Notepad ایجاد کرد. راههای دیگری برای دستیابی به برخی از اهداف مشابهی وجود دارد که robots.txt معمولاً برای آنها استفاده میشود.
صفحات منفرد میتوانند شامل متا تگ روبات در خود کد صفحه باشند. همچنین میتوانید از هدر HTTP X-Robots-Tag برای تأثیرگذاری بر نحوه (و اینکه آیا) محتوا در نتایج جستجو نشان داده میشود استفاده کنید.
Robots.txt چه کاری میتواند انجام دهد؟
Robots.txt میتواند نتایج مختلفی را در طیفی از انواع مختلف محتوا به دست آورد:
میتوان صفحات وب را برای خزش مسدود کرد. ممکن است همچنان در نتایج جستجو ظاهر شوند، اما شرح متنی نخواهند داشت. محتوای غیر HTML در صفحه نیز خزش نخواهد شد.
فایلهای رسانهای را میتوان از نمایش در نتایج جستجوی گوگل مسدود کرد. این شامل تصاویر، ویدئو و فایلهای صوتی است. اگر فایل عمومی باشد، همچنان به صورت آنلاین «وجود» خواهد داشت و میتوان آن را مشاهده کرد و به آن لینک داد، اما این محتوای خصوصی در جستجوهای Google نشان داده نمیشود.
فایلهای منبع مانند اسکریپتهای خارجی غیر مهم را میتوان مسدود کرد. اما این بدان معناست که اگر گوگل صفحهای را خزش کند که برای بارگیری آن منبع نیاز دارد، ربات Googlebot نسخهای از صفحه را میبیند که گویی آن منبع وجود ندارد، که ممکن است بر ایندکسینگ تأثیر بگذارد.
شما نمیتوانید از robots.txt برای جلوگیری از نمایش کامل یک صفحه وب در نتایج جستجوی Google استفاده کنید. برای رسیدن به آن، باید از یک روش جایگزین مانند افزودن متا تگ noindex به هدر استفاده کنید.
اشتباهات Robots.txt چقدر خطرناک هستند؟
یک اشتباه در robots.txt میتواند عواقب ناخواستهای داشته باشد، اما اغلب این پایان دنیا نیست. خبر خوب این است که با ویرایش فایل robots.txt خود، میتوانید هر گونه خطا را به سرعت و (معمولا) به طور کامل بازیابی کنید.
راهنمای گوگل به توسعه دهندگان وب در مورد اشتباهات robots.txt چنین میگوید:
معمولاً خزندههای وب بسیار انعطاف پذیر هستند و معمولاً توسط اشتباهات جزئی در فایل robots.txt تحت تأثیر قرار نمیگیرند. به طور کلی، بدترین اتفاقی که میتواند بیفتد این است که دستورالعملهای نادرست [یا] پشتیبانی نشده نادیده گرفته شوند.
البته به خاطر داشته باشید که Google نمیتواند هنگام تفسیر فایل robots.txt ذهن را بخواند. ما باید فایل robots.txt را که واکشی کردیم تفسیر کنیم. گفته میشود، اگر از مشکلات موجود در فایل robots.txt خود آگاه هستید، معمولاً رفع آنها آسان است.”
6 اشتباه رایج Robots.txt
- txt در فهرست اصلی نیست.
- استفاده ضعیف از حروف عمومی
- Noindex در txt.
- اسکریپتها و صفحههای سبک مسدود شده
- بدون URL نقشه سایت.
- دسترسی به سایتهای در حال توسعه
اگر وب سایت شما در نتایج جستجو به طرز عجیبی رفتار میکند، فایل robots.txt شما مکان خوبی برای جستجوی اشتباهات، خطاهای نحوی و قوانین بیش از حد است. بیایید به هر یک از اشتباهات بالا با جزئیات بیشتری نگاهی بیندازیم و ببینیم چگونه از داشتن یک فایل robots.txt معتبر اطمینان حاصل کنیم.
-
Robots.txt در دایرکتوری ریشه نیست
رباتهای جستجوگر فقط در صورتی میتوانند فایل را پیدا کنند که در پوشه روت سایت شما باشد. به همین دلیل است که در URL فایل robots.txt فقط باید یک اسلش رو به جلو بین .com (یا دامنه معادل) وب سایت شما و نام فایل «robots.txt» وجود داشته باشد. اگر یک زیرپوشه در آن وجود داشته باشد، فایل robots.txt شما احتمالاً برای روباتهای جستجوگر قابل مشاهده نیست و احتمالاً وب سایت شما طوری رفتار میکند که گویی اصلاً فایل robots.txt وجود ندارد.
برای رفع این مشکل، فایل robots.txt خود را به دایرکتوری ریشه خود منتقل کنید. شایان ذکر است که برای این کار باید به سرور خود دسترسی ریشه داشته باشید. برخی از سیستمهای مدیریت محتوا بهطور پیشفرض فایلها را در یک زیرشاخه رسانه (یا چیزی مشابه) آپلود میکنند، بنابراین ممکن است لازم باشد این مورد را دور بزنید تا فایل robots.txt خود را در مکان مناسب قرار دهید.
-
استفاده ضعیف از حروف عمومی
Robots.txt از دو کاراکتر wildcard پشتیبانی میکند:
- ستاره * که هر نمونهای از یک شخصیت معتبر را نشان میدهد، مانند یک جوکر در یک دسته کارت.
- علامت دلاری $ که پایان یک URL را نشان میدهد و به شما امکان میدهد قوانین را فقط در قسمت نهایی URL مانند پسوند نوع فایل اعمال کنید.
منطقی است که یک رویکرد مینیمالیستی برای استفاده از حروف عام اتخاذ کنید، زیرا آنها پتانسیل اعمال محدودیت در بخش بسیار وسیع تری از وب سایت شما را دارند. همچنین مسدود کردن دسترسی ربات از کل سایت خود با یک ستاره نامناسب، نسبتاً آسان است.
برای رفع مشکل wildcard، باید علامت عام نادرست را پیدا کنید و آن را جابجا یا حذف کنید تا فایل robots.txt شما همانطور که در نظر گرفته شده عمل کند.
-
Noindex در Robots.txt
این مورد در وب سایتهایی که بیش از چند سال قدمت دارند بیشتر دیده میشود.
گوگل از 1 سپتامبر 2019 از قوانین noindex در فایلهای robots.txt پیروی نمیکند. اگر فایل robots.txt شما قبل از آن تاریخ ایجاد شده باشد یا حاوی دستورالعملهای noindex باشد، احتمالاً آن صفحات را در نتایج جستجوی Google نمایهسازی میکنید.
راهحل این مشکل پیادهسازی روش جایگزین ‘noindex’ است. یکی از گزینهها متا تگ robots است که میتوانید آن را به هدر هر صفحه وب که میخواهید اضافه کنید تا از ایندکس شدن گوگل جلوگیری کنید.
-
اسکریپتها و صفحههای سبک مسدود شده
ممکن است منطقی به نظر برسد که دسترسی خزنده به جاوا اسکریپتهای خارجی و فایلهای استایل دهی (CSS) را مسدود کنید. با این حال، به یاد داشته باشید که Googlebot برای اینکه صفحات HTML و PHP شما را به درستی «مشاهده» کند، نیاز به دسترسی به فایلهای CSS و JS دارد.
اگر صفحات شما در نتایج Google به طرز عجیبی رفتار میکنند، یا به نظر میرسد Google آنها را به درستی نمیبیند، بررسی کنید که آیا دسترسی خزنده به فایلهای خارجی مورد نیاز را مسدود میکنید.
یک راه حل ساده برای این کار حذف خطی از فایل robots.txt است که دسترسی را مسدود میکند. یا اگر فایلهایی دارید که باید مسدود کنید، یک استثنا وارد کنید که دسترسی به CSS و جاوا اسکریپتهای ضروری را بازیابی میکند.
-
بدون URL نقشه سایت
این بیشتر از هر چیز دیگری در مورد سئو است. می توانید URL نقشه سایت خود را در فایل robots.txt خود قرار دهید.
از آنجا که این اولین جایی است که Googlebot هنگام خزش وب سایت شما به آن نگاه میکند، این به خزنده یک سرنخ در شناخت ساختار و صفحات اصلی سایت شما میدهد.
در حالی که این کاملاً یک خطا نیست، زیرا حذف نقشه سایت نباید بر عملکرد اصلی و ظاهر وب سایت شما در نتایج جستجو تأثیر منفی بگذارد، اگر میخواهید به تقویت تلاشهای سئوی خود کمک کنید، همچنان ارزش آن را دارد که URL نقشه سایت خود را به robots.txt اضافه کنید.
-
دسترسی به سایتهای در حال توسعه
مسدود کردن خزندهها از وبسایت زنده شما یک کار غیر طبیعی است، اما اجازه دادن به آنها برای خزش و فهرست کردن صفحات شما که هنوز در حال توسعه هستند نیز وجود دارد. بهترین کار این است که یک دستورالعمل disallow را به فایل robots.txt یک وب سایت در حال ساخت اضافه کنید تا عموم مردم آن را تا زمانی که تمام نشده نبینند.
به همین ترتیب، حذف دستورالعمل disallow هنگام راهاندازی یک وبسایت تکمیلشده، بسیار مهم است. فراموش کردن حذف این خط از robots.txt یکی از رایج ترین اشتباهات در بین توسعه دهندگان وب است و میتواند کل وب سایت شما را از خزش و ایندکس صحیح جلوگیری کند.
اگر به نظر میرسد سایت در حال توسعه شما ترافیک واقعی دریافت میکند، یا وبسایتی که اخیراً راهاندازی کردهاید در جستجو اصلاً خوب عمل نمیکند، در فایل robots.txt خود به دنبال یک قانون disallow عامل کاربر جهانی باشید:
User-Agent: *
Disallow: /
اگر این را در زمانی که نباید میبینید (یا زمانی که باید آن را نمیبینید)، تغییرات لازم را در فایل robots.txt خود اعمال کنید و بررسی کنید که ظاهر جستجوی وبسایت شما مطابق با آن بهروزرسانی شود.
چگونه از خطای Robots.txt رهایی یابیم؟
اگر اشتباهی در robots.txt تأثیرات ناخواستهای بر ظاهر جستجوی وب سایت شما داشته باشد، اولین قدم مهم این است که robots.txt را تصحیح کنید و تأیید کنید که قوانین جدید تأثیر مطلوب را دارند. برخی از ابزارهای خزش سئو میتوانند به این امر کمک کنند، بنابراین لازم نیست منتظر بمانید تا موتورهای جستجو سایت شما را در مرحله بعدی خزش کنند.
وقتی مطمئن هستید که robots.txt مطابق دلخواه شما رفتار میکند، میتوانید سایت خود را در دوباره اسرع وقت خزش کنید. پلتفرمهایی مانند کنسول جستجوی گوگل و ابزار وب مستر بینگ میتوانند کمک کنند.
یک نقشه سایت به روز شده ارسال کنید و خزش مجدد هر صفحهای را که به طور نامناسبی از لیست حذف شده اند، درخواست کنید. متأسفانه، شما در انتظار Googlebot هستید – هیچ تضمینی وجود ندارد که چقدر طول میکشد تا صفحات گمشده دوباره در فهرست جستجوی Google ظاهر شوند. تنها کاری که میتوانید بکنید این است که اقدامات صحیح را انجام دهید تا اینکه آن زمان را تا حد امکان به حداقل برسانید و به بررسی ادامه دهید تا robots.txt ثابت شده توسط Googlebot پیاده سازی شود.
صحبت نهایی
در مورد خطاهای robots.txt، قطعاً پیشگیری بهتر از درمان است. در یک وبسایت بزرگ درآمدزا، یک علامت هرز که کل وبسایت شما را از Google حذف میکند، میتواند تأثیر فوری بر درآمد داشته باشد. ویرایشهای robots.txt باید با دقت توسط توسعهدهندگان باتجربه انجام شود، دوباره بررسی شود و – در صورت لزوم – مشروط به نظر مجدد باشد.
در صورت امکان، قبل از اجرای زنده روی سرور واقعی خود، در ویرایشگر sandbox تست کنید تا مطمئن شوید که از ایجاد سهوی مشکلات در دسترس نبودن جلوگیری میکنید. به یاد داشته باشید، وقتی بدترین اتفاق میافتد، مهم است که مضطرب نشوید.
مشکل را تشخیص دهید، ویرایش لازم را در robots.txt انجام دهید و نقشه سایت خود را مجدداً برای خزش جدید ارسال کنید. امیدواریم جایگاه شما در رتبه بندیهای جستجو در عرض چند روز بازیابی شود.
منبع: SEJ
دیدگاهتان را بنویسید