مشکلات رایج robots.txt

رایج‌ترین مشکلات robots.txt، تأثیری که می‌توانند بر وب‌سایت شما و رتبه آن در موتورهای جستجو داشته باشند، و نحوه رفع آن‌ها را کشف کنید.

Robots.txt یک ابزار مفید و نسبتا قدرتمند برای آموزش خزنده‌های موتورهای جستجو در مورد نحوه خزش وب سایت شما است. همه کاره نیست (به قول خود گوگل، “مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست”) اما می‌تواند به جلوگیری از Load بیش از حد سایت یا سرور شما توسط ربات‌های خزنده کمک کند.

اگر این فایل راهنمای خزش را در سایت خود دارید، باید مطمئن شوید که به درستی از آن استفاده می‌شود. به ویژه اگر از URL‌های پویا یا روش‌های دیگری استفاده می‌کنید که از نظر تئوری بی نهایت تعداد صفحه تولید می‌کنند، این امر مهم است.

در این راهنما، ما به برخی از رایج‌ترین مشکلات مربوط به فایل robots.txt، تأثیری که می‌توانند بر وب‌سایت شما و رتبه آن در موتورهای جستجو داشته باشند، و حتی اگر فکر می‌کنید این مشکلات رخ داده‌اند، چگونه می‌توان آن‌ها را برطرف کرد می‌پردازیم.

اما ابتدا، اجازه دهید نگاهی گذرا به robots.txt و فرعیات آن بیندازیم.

Robots.txt چیست؟

Robots.txt از فرمت فایل متنی ساده استفاده می‌کند و در فهرست اصلی وب سایت شما قرار می‌گیرد. باید در بالاترین دایرکتوری سایت شما باشد. اگر آن را در یک زیر شاخه قرار دهید، موتورهای جستجو به سادگی آن را نادیده می‌گیرند.

با وجود قدرت زیاد، robots.txt اغلب یک سند نسبتا ساده است و یک فایل robots.txt اولیه را می‌توان در عرض چند ثانیه با استفاده از ویرایشگری مانند Notepad ایجاد کرد. راه‌های دیگری برای دستیابی به برخی از اهداف مشابهی وجود دارد که robots.txt معمولاً برای آنها استفاده می‌شود.

صفحات منفرد می‌توانند شامل متا تگ روبات در خود کد صفحه باشند. همچنین می‌توانید از هدر HTTP X-Robots-Tag برای تأثیرگذاری بر نحوه (و اینکه آیا) محتوا در نتایج جستجو نشان داده می‌شود استفاده کنید.

Robots.txt چه کاری می‌تواند انجام دهد؟

Robots.txt می‌تواند نتایج مختلفی را در طیفی از انواع مختلف محتوا به دست آورد:

می‌توان صفحات وب را برای خزش مسدود کرد. ممکن است همچنان در نتایج جستجو ظاهر شوند، اما شرح متنی نخواهند داشت. محتوای غیر HTML در صفحه نیز خزش نخواهد شد.

فایل‌های رسانه‌ای را می‌توان از نمایش در نتایج جستجوی گوگل مسدود کرد. این شامل تصاویر، ویدئو و فایل‌های صوتی است. اگر فایل عمومی باشد، همچنان به صورت آنلاین «وجود» خواهد داشت و می‌توان آن را مشاهده کرد و به آن لینک داد، اما این محتوای خصوصی در جستجوهای Google نشان داده نمی‌شود.

فایل‌های منبع مانند اسکریپت‌های خارجی غیر مهم را می‌توان مسدود کرد. اما این بدان معناست که اگر گوگل صفحه‌ای را خزش کند که برای بارگیری آن منبع نیاز دارد، ربات Googlebot نسخه‌ای از صفحه را می‌بیند که گویی آن منبع وجود ندارد، که ممکن است بر ایندکسینگ تأثیر بگذارد.

شما نمی‌توانید از robots.txt برای جلوگیری از نمایش کامل یک صفحه وب در نتایج جستجوی Google استفاده کنید. برای رسیدن به آن، باید از یک روش جایگزین مانند افزودن متا تگ noindex به هدر استفاده کنید.

مطالعه مقاله

10 قانون طراحی یک صفحه فرود جذاب

اشتباهات Robots.txt چقدر خطرناک هستند؟

یک اشتباه در robots.txt می‌تواند عواقب ناخواسته‌ای داشته باشد، اما اغلب این پایان دنیا نیست. خبر خوب این است که با ویرایش فایل robots.txt خود، می‌توانید هر گونه خطا را به سرعت و (معمولا) به طور کامل بازیابی کنید.

راهنمای گوگل به توسعه دهندگان وب در مورد اشتباهات robots.txt چنین می‌گوید:

معمولاً خزنده‌های وب بسیار انعطاف پذیر هستند و معمولاً توسط اشتباهات جزئی در فایل robots.txt تحت تأثیر قرار نمی‌گیرند. به طور کلی، بدترین اتفاقی که می‌تواند بیفتد این است که دستورالعمل‌های نادرست [یا] پشتیبانی نشده نادیده گرفته شوند.

البته به خاطر داشته باشید که Google نمی‌تواند هنگام تفسیر فایل robots.txt ذهن را بخواند. ما باید فایل robots.txt را که واکشی کردیم تفسیر کنیم. گفته می‌شود، اگر از مشکلات موجود در فایل robots.txt خود آگاه هستید، معمولاً رفع آنها آسان است.”

6 اشتباه رایج Robots.txt

txt در فهرست اصلی نیست.
استفاده ضعیف از حروف عمومی
Noindex در txt.
اسکریپت‌ها و صفحه‌های سبک مسدود شده
بدون URL نقشه سایت.
دسترسی به سایت‌های در حال توسعه

اگر وب سایت شما در نتایج جستجو به طرز عجیبی رفتار می‌کند، فایل robots.txt شما مکان خوبی برای جستجوی اشتباهات، خطاهای نحوی و قوانین بیش از حد است. بیایید به هر یک از اشتباهات بالا با جزئیات بیشتری نگاهی بیندازیم و ببینیم چگونه از داشتن یک فایل robots.txt معتبر اطمینان حاصل کنیم.

Robots.txt در دایرکتوری ریشه نیست

ربات‌های جستجوگر فقط در صورتی می‌توانند فایل را پیدا کنند که در پوشه روت سایت شما باشد. به همین دلیل است که در URL فایل robots.txt فقط باید یک اسلش رو به جلو بین .com (یا دامنه معادل) وب سایت شما و نام فایل «robots.txt» وجود داشته باشد. اگر یک زیرپوشه در آن وجود داشته باشد، فایل robots.txt شما احتمالاً برای روبات‌های جستجوگر قابل مشاهده نیست و احتمالاً وب سایت شما طوری رفتار می‌کند که گویی اصلاً فایل robots.txt وجود ندارد.

برای رفع این مشکل، فایل robots.txt خود را به دایرکتوری ریشه خود منتقل کنید. شایان ذکر است که برای این کار باید به سرور خود دسترسی ریشه داشته باشید. برخی از سیستم‌های مدیریت محتوا به‌طور پیش‌فرض فایل‌ها را در یک زیرشاخه رسانه (یا چیزی مشابه) آپلود می‌کنند، بنابراین ممکن است لازم باشد این مورد را دور بزنید تا فایل robots.txt خود را در مکان مناسب قرار دهید.

استفاده ضعیف از حروف عمومی

Robots.txt از دو کاراکتر wildcard پشتیبانی می‌کند:

ستاره * که هر نمونه‌ای از یک شخصیت معتبر را نشان می‌دهد، مانند یک جوکر در یک دسته کارت.
علامت دلاری $ که پایان یک URL را نشان می‌دهد و به شما امکان می‌دهد قوانین را فقط در قسمت نهایی URL مانند پسوند نوع فایل اعمال کنید.

منطقی است که یک رویکرد مینیمالیستی برای استفاده از حروف عام اتخاذ کنید، زیرا آنها پتانسیل اعمال محدودیت در بخش بسیار وسیع تری از وب سایت شما را دارند. همچنین مسدود کردن دسترسی ربات از کل سایت خود با یک ستاره نامناسب، نسبتاً آسان است.

مطالعه مقاله

آیا افزونه‌های وردپرس حاوی ویروس هستند؟

برای رفع مشکل wildcard، باید علامت عام نادرست را پیدا کنید و آن را جابجا یا حذف کنید تا فایل robots.txt شما همانطور که در نظر گرفته شده عمل کند.

Noindex در Robots.txt

این مورد در وب سایت‌هایی که بیش از چند سال قدمت دارند بیشتر دیده می‌شود.

گوگل از 1 سپتامبر 2019 از قوانین noindex در فایل‌های robots.txt پیروی نمی‌کند. اگر فایل robots.txt شما قبل از آن تاریخ ایجاد شده باشد یا حاوی دستورالعمل‌های noindex باشد، احتمالاً آن صفحات را در نتایج جستجوی Google نمایه‌سازی می‌کنید.

راه‌حل این مشکل پیاده‌سازی روش جایگزین ‘noindex’ است. یکی از گزینه‌ها متا تگ robots است که می‌توانید آن را به هدر هر صفحه وب که می‌خواهید اضافه کنید تا از ایندکس شدن گوگل جلوگیری کنید.

اسکریپت‌ها و صفحه‌های سبک مسدود شده

ممکن است منطقی به نظر برسد که دسترسی خزنده به جاوا اسکریپت‌های خارجی و فایل‌های استایل دهی (CSS) را مسدود کنید. با این حال، به یاد داشته باشید که Googlebot برای اینکه صفحات HTML و PHP شما را به درستی «مشاهده» کند، نیاز به دسترسی به فایل‌های CSS و JS دارد.

اگر صفحات شما در نتایج Google به طرز عجیبی رفتار می‌کنند، یا به نظر می‌رسد Google آنها را به درستی نمی‌بیند، بررسی کنید که آیا دسترسی خزنده به فایل‌های خارجی مورد نیاز را مسدود می‌کنید.

یک راه حل ساده برای این کار حذف خطی از فایل robots.txt است که دسترسی را مسدود می‌کند. یا اگر فایل‌هایی دارید که باید مسدود کنید، یک استثنا وارد کنید که دسترسی به CSS و جاوا اسکریپت‌های ضروری را بازیابی می‌کند.

بدون URL نقشه سایت

این بیشتر از هر چیز دیگری در مورد سئو است. می توانید URL نقشه سایت خود را در فایل robots.txt خود قرار دهید.

از آنجا که این اولین جایی است که Googlebot هنگام خزش وب سایت شما به آن نگاه می‌کند، این به خزنده یک سرنخ در شناخت ساختار و صفحات اصلی سایت شما می‌دهد.

در حالی که این کاملاً یک خطا نیست، زیرا حذف نقشه سایت نباید بر عملکرد اصلی و ظاهر وب سایت شما در نتایج جستجو تأثیر منفی بگذارد، اگر می‌خواهید به تقویت تلاش‌های سئوی خود کمک کنید، همچنان ارزش آن را دارد که URL نقشه سایت خود را به robots.txt اضافه کنید.

دسترسی به سایت‌های در حال توسعه

مسدود کردن خزنده‌ها از وب‌سایت زنده شما یک کار غیر طبیعی است، اما اجازه دادن به آنها برای خزش و فهرست کردن صفحات شما که هنوز در حال توسعه هستند نیز وجود دارد. بهترین کار این است که یک دستورالعمل disallow را به فایل robots.txt یک وب سایت در حال ساخت اضافه کنید تا عموم مردم آن را تا زمانی که تمام نشده نبینند.

مطالعه مقاله

11 اشتباه در ایمیل مارکتینگ

به همین ترتیب، حذف دستورالعمل disallow هنگام راه‌اندازی یک وب‌سایت تکمیل‌شده، بسیار مهم است. فراموش کردن حذف این خط از robots.txt یکی از رایج ترین اشتباهات در بین توسعه دهندگان وب است و می‌تواند کل وب سایت شما را از خزش و ایندکس صحیح جلوگیری کند.

اگر به نظر می‌رسد سایت در حال توسعه شما ترافیک واقعی دریافت می‌کند، یا وب‌سایتی که اخیراً راه‌اندازی کرده‌اید در جستجو اصلاً خوب عمل نمی‌کند، در فایل robots.txt خود به دنبال یک قانون disallow عامل کاربر جهانی باشید:

User-Agent: *

Disallow: /

اگر این را در زمانی که نباید می‌بینید (یا زمانی که باید آن را نمی‌بینید)، تغییرات لازم را در فایل robots.txt خود اعمال کنید و بررسی کنید که ظاهر جستجوی وب‌سایت شما مطابق با آن به‌روزرسانی شود.

چگونه از خطای Robots.txt رهایی یابیم؟

اگر اشتباهی در robots.txt تأثیرات ناخواسته‌ای بر ظاهر جستجوی وب سایت شما داشته باشد، اولین قدم مهم این است که robots.txt را تصحیح کنید و تأیید کنید که قوانین جدید تأثیر مطلوب را دارند. برخی از ابزارهای خزش سئو می‌توانند به این امر کمک کنند، بنابراین لازم نیست منتظر بمانید تا موتورهای جستجو سایت شما را در مرحله بعدی خزش کنند.

وقتی مطمئن هستید که robots.txt مطابق دلخواه شما رفتار می‌کند، می‌توانید سایت خود را در دوباره اسرع وقت خزش کنید. پلتفرم‌هایی مانند کنسول جستجوی گوگل و ابزار وب مستر بینگ می‌توانند کمک کنند.

یک نقشه سایت به روز شده ارسال کنید و خزش مجدد هر صفحه‌ای را که به طور نامناسبی از لیست حذف شده اند، درخواست کنید. متأسفانه، شما در انتظار Googlebot هستید – هیچ تضمینی وجود ندارد که چقدر طول می‌کشد تا صفحات گمشده دوباره در فهرست جستجوی Google ظاهر شوند. تنها کاری که می‌توانید بکنید این است که اقدامات صحیح را انجام دهید تا اینکه آن زمان را تا حد امکان به حداقل برسانید و به بررسی ادامه دهید تا robots.txt ثابت شده توسط Googlebot پیاده سازی شود.

صحبت نهایی

در مورد خطاهای robots.txt، قطعاً پیشگیری بهتر از درمان است. در یک وب‌سایت بزرگ درآمدزا، یک علامت هرز که کل وب‌سایت شما را از Google حذف می‌کند، می‌تواند تأثیر فوری بر درآمد داشته باشد. ویرایش‌های robots.txt باید با دقت توسط توسعه‌دهندگان باتجربه انجام شود، دوباره بررسی شود و – در صورت لزوم – مشروط به نظر مجدد باشد.

در صورت امکان، قبل از اجرای زنده روی سرور واقعی خود، در ویرایشگر sandbox تست کنید تا مطمئن شوید که از ایجاد سهوی مشکلات در دسترس نبودن جلوگیری می‌کنید. به یاد داشته باشید، وقتی بدترین اتفاق می‌افتد، مهم است که مضطرب نشوید.

مشکل را تشخیص دهید، ویرایش لازم را در robots.txt انجام دهید و نقشه سایت خود را مجدداً برای خزش جدید ارسال کنید. امیدواریم جایگاه شما در رتبه بندی‌های جستجو در عرض چند روز بازیابی شود.

منبع: SEJ