فایل robots.txt چست؟

فایل robots.txt چست؟ کاربرد برای سایت


فایل Robots.txt یکی از بخش‌های کمتر شناخته‌شده برای سئوکاران مبتدی است. به طور کلی، این فایل دستورالعمل‌هایی را برای ربات‌های موتورهای جستجو تعیین می‌کند. این فایل مشخص می کند که آیا موتورهای جستجو اجازه دسترسی به بخش‌های خاصی از سایت را دارند یا خیر.

در این مقاله به ساده‌ترین شکل ممکن به آموزش فایل Robots.txt خواهیم پرداخت و با کاربرد آن در وب‌سایت‌ها آشنا خواهیم شد. در پایان، شما به طور کامل با این فایل آشنا خواهید شد و نحوه ایجاد و ویرایش آن را یاد خواهید گرفت. پس با ما همراه باشید.

شرکت آوین سئو خدمات بسیاری در طراحی سایت و بازرسی سئو سایت با مشاوره رایگان با شما است.

تعریف فایل Robots txt

فایل robots.txt یک فایل متنی کوچک در وب‌سایت است که شامل چند دستور ساده برای مدیریت دسترسی ربات‌های جستجو به صفحات وب‌سایت می‌باشد. به عبارت دیگر، با استفاده از دو فرمان ساده Allow و Disallow در این فایل، می‌توانیم دسترسی ربات‌ها و خزنده‌هایی را که برای بررسی و خزش صفحات و فایل‌های وب‌سایت وارد می‌شوند، مجاز یا محدود کنیم.

فایل robots.txt چست؟
robots.txt چست؟مزایا و ویژگی ها

فایل Robots.txt چه کاربردی دارد؟

پوشه robots.txt در هاست و در دایرکتوری اصلی سایت قرار دارد.

این فایل شامل دستوراتی است که به خزنده‌های موتورهای جستجو اجازه می‌دهد تا نحوه دسترسی به صفحات سایت را تعیین کنند.

به طور معمول، زمانی که موتورهای جستجو به سایت مراجعه می‌کنند، اولین فایلی که بررسی می‌کنند همین فایل ربوتس است.

سپس بر اساس دستورالعمل‌های موجود، شروع به بررسی محتوای سایت می‌کنند.

برای مثال، اگر وبمستر بخواهد که بخشی از سایت در نتایج جستجو نمایش داده نشود، می‌تواند با استفاده از دستور “disallow” در فایل robots.txt آن بخش را مسدود کند.

فایل robots.txt چست؟
کاربرد در سایت ها و سرچ گوگل

سوالی که به ذهن می‌رسد این است که هدف اصلی ما از بهینه‌سازی سایت، افزایش ترافیک ورودی آن است.

اما چرا باید اقداماتی انجام دهیم که برخی صفحات ایندکس نشوند؟

دلایل مختلفی وجود دارد که می‌تواند مانع ایندکس شدن برخی صفحات سایت شود، از جمله:

  • در مرحله طراحی سایت
  • پنهان کردن صفحات غیرضروری پس از طراحی
  • حذف برخی محتواهای خاص از ایندکس گوگل
  • پنهان کردن صفحات بی‌ارزش، تکراری، زامبی و موارد مشابه.

چرا وب‌سایت به فایل robots.txt احتیاج دارد؟

فایل robots.txt یکی از ابزارهای مهم در مدیریت دسترسی ربات‌های جستجو به وب‌سایت‌هاست. با استفاده از این فایل، می‌توانیم تعیین کنیم که ربات‌ها به کدام بخش‌ها یا صفحات وب‌سایت دسترسی داشته باشند یا نداشته باشند. به طور کلی، کاربردهای این فایل شامل موارد زیر است:

  1. تعیین محدودیت یا اجازه دسترسی ربات‌ها به بخش‌های مختلف وب‌سایت
  2. بهینه‌سازی «بودجه خزش» (Crawl Budget) با جلوگیری از دسترسی ربات‌ها به صفحات کم‌اهمیت (مثل صفحات ورود، تشکر، سبد خرید و …)
  3. جلوگیری از خزش و نمایه‌گذاری فایل‌های pdf و تصاویر توسط ربات‌های جستجو
  4. نمایش آدرس «نقشه سایت» (Sitemap)

تا اینجا با مفهوم و کاربردهای فایل robots.txt آشنا شدید. در ادامه، بیشتر درباره کاربردهای این فایل صحبت خواهیم کرد و نحوه ساخت آن و استفاده از دستورات مختلف را یاد خواهید گرفت. در مرحله اول، در بخش بعدی توضیح خواهیم داد که چگونه می‌توانید فایل robots.txt وب‌سایت‌های مختلف را مشاهده کنید.

فایل ربات‌ تی ایکس تی چگونه عمل می‌کند؟

برای درک بهتر عملکرد فایل robots.txt، ابتدا باید نگاهی به نحوه کار موتورهای جستجو بیندازیم. هر موتور جستجو برای نمایش نتایج مرتبط به کاربران، دو کار اصلی انجام می‌دهد:

  1. «خزش» (Crawling) وب برای یافتن محتوا
  2. «نمایه‌گذاری» (Indexing) محتوا و افزودن آن به پایگاه‌داده موتور جستجو به منظور نمایش در نتایج جستجو

این فرایند توسط «ربات‌ها» یا «خزنده‌ها» (Crawler) انجام می‌شود که با دنبال کردن لینک‌های موجود در صفحات، به وب‌سایت‌های مختلف وارد می‌شوند و اطلاعات آن‌ها را خزش می‌کنند. در این مرحله، فایل robots.txt نقش مهمی ایفا می‌کند. خزنده‌ها پس از ورود به وب‌سایت، ابتدا به دنبال فایل robots.txt می‌گردند تا دستورالعمل‌های خزش صفحات را از آن دریافت کنند.

اگر وب‌سایت فاقد فایل ربات تی ایکس تی باشد یا ربات‌ها نتوانند آن را پیدا کنند، تصمیم می‌گیرند که تمام صفحات وب‌سایت را خزش کنند. اگر هر وب‌سایت را به عنوان یک شهر جدید در نظر بگیریم و ربات‌های جستجو را به عنوان خودروهای ورودی، فایل ربات تی ایکس تی مانند یک دفترچه راهنمای کوچک است که برای گشت و گذار در آن شهر به آن نیاز داریم.

ربات تکست و کاربردش در چی است.
ربات تکست چگونه عمل می کند.

آموزش ایجاد فایل Robots.txt

در این قسمت به بررسی نحوه ایجاد فایل robots برای وب‌سایت می‌پردازیم.

ابتدا یاد می‌گیریم که چگونه می‌توانیم وجود یا عدم وجود این فایل را در سایت خود بررسی کنیم.

سپس به این سوال پاسخ می‌دهیم که اگر فایل robots در وب‌سایت ما وجود نداشته باشد، چه پیامدهایی خواهد داشت؟

در پایان، پس از آشنایی با کدهای robots.txt، روش ساخت این فایل را یاد خواهیم گرفت.

بررسی فایل Robots در وب‌سایت

در سئو سایت وردپرس، به طور پیش‌فرض یک فایل به نام robots.txt ایجاد می‌شود.

این فایل را می‌توانید از طریق آدرس زیر مشاهده کنید: example.com/robots.txt

برای بررسی وجود این فایل در وب‌سایت خود، کافیست به جای example.com، آدرس سایت خود را وارد کنید.

اگر پس از وارد کردن آدرس با صفحه ۴۰۴ روبرو شدید، به این معناست که وب‌سایت شما فاقد فایل robots.txt است.

در این صورت، لازم است که این فایل را به صورت دستی ایجاد کنید.

آیا نبود فایل Robots.txt می‌تواند تأثیری منفی بر سئو داشته باشد؟

استفاده از این فایل به منظور مدیریت دسترسی موتورهای جستجوی گوگل بسیار حائز اهمیت است. همانطور که اشاره کردیم، وقتی یک وبمستر یا مدیر سایت تصمیم به انتشار صفحه‌ای در وب‌سایت خود می‌گیرد و آن صفحه ممکن است برخی از اصول سئو سایت کد نویسی را نقض کند، لازم است از دستورات موجود در فایل ربات تکست بهره‌برداری کند.

بهینه‌سازی وب‌سایت با استفاده از فایل Robots.txt

در طول روز، صدها و حتی ممکن است هزاران ربات از سوی گوگل به سایت‌ها مراجعه کنند و اطلاعات آن‌ها را جمع‌آوری کنند. به عنوان مثال، اگر 1000 ربات به سایت شما وارد شوند، بدون تردید عملکرد و سرعت بارگذاری صفحات شما به شدت تحت تأثیر قرار خواهد گرفت.

در چنین وضعیتی، برای بهبود عملکرد سایت، لازم است که تعداد ربات‌های موتور جستجوی گوگل را محدود کنیم. برای این کار، می‌توان از فایل Robots.txt بهره برد.

مدیریت آدرس‌ها و لینک‌ها با استفاده از فایلRobots.txt

مدیریت تعداد زیادی URL و لینک برای مدیران وبسایت‌ها کار آسانی نیست. با استفاده از فایل Robot.txt می‌توانید به راحتی لینک‌ها و آدرس‌های سایت خود را مدیریت کنید و هر زمان که نیاز داشتید، تغییرات لازم را اعمال کنید.

یکی از تکنیک‌های رایج در سئو، URL Cloaking است که برای پنهان کردن آدرس صفحات از دید موتورهای جستجو و کاربران به کار می‌رود.

اگر شما یک سئوکار حرفه‌ای نیستید، به هیچ وجه به سراغ این روش نروید؛ زیرا این تکنیک جزو سئوهای کلاه سیاه محسوب می‌شود و باید تنها توسط افراد متخصص و با تجربه انجام شود.

در غیر این صورت، ممکن است سایت شما به طور دائمی از نتایج گوگل حذف و پنالتی شود که این موضوع می‌تواند تمام زحمات شما را به باد دهد. URL Cloaking به گونه‌ای عمل می‌کند که قوانین و شرایط گوگل را به طور کامل نقض می‌کند و به همین دلیل به آن سئوی کلاه سیاه می‌گویند.

حداکثر کردن بودجه خزش

اگر در ایندکس کردن تمامی صفحات خود دچار مشکل هستید، ممکن است با محدودیت بودجه خزش روبرو باشید. با مسدود کردن صفحات کم‌اهمیت از طریق فایلrobots.txt، می‌توانید به گوگل بات کمک کنید تا بیشتر بودجه خزش شما را به صفحاتی اختصاص دهد که واقعاً اهمیت دارند.

تاثیرات robot.txt بر سئو و عملکرد سایت
تاثیرات robot.txt بر سئو و عملکرد سایت

معرفی دستورات فایل robots.txt

فایل robots.txt با استفاده از دستورات خاصی که در آن قرار می‌دهیم، به ربات‌های جستجو می‌گوید که آیا باید به صفحات خاصی دسترسی پیدا کنند یا خیر. به‌طور کلی، در این فایل شش نوع دستور وجود دارد.

در بخش بعدی به بررسی کاربرد و محل استفاده هر یک از این دستورات در فایل robots.txt خواهیم پرداخت.

1. User-Agent برای شناسایی ربات‌های جستجو

هر گروه دستوری در فایل robots.txt با دستور User-Agent آغاز می‌شود و تا دستور User-Agent بعدی ادامه دارد. با استفاده از دستور User-Agent مشخص می‌کنیم که کدام یک از ربات‌های جستجو باید از دستوری که در سطر بعدی آمده، پیروی کنند. به عنوان مثال، اگر بخواهیم به «ربات جستجوی گوگل» (Googlebot) بگوییم که صفحه مدیریت وردپرس را خزش نکند، باید دستور را به شکل زیر بنویسیم:

User-agent: Googlebot

Disallow: /wp-admin/

دستور User-Agent بر اساس نوع ربات، به دو صورت در فایل robots.txt نوشته می‌شود:

  • در حالت اول، نوع ربات را به‌طور مشخص تعیین می‌کنیم. برای مثال در نمونه بالا، تمامی ربات‌های موتور جستجوی گوگل از دستور Disallow که بعد از آن آمده، پیروی می‌کنند.
  • در حالت دوم، به‌جای تعیین نوع ربات، از علامت «*» استفاده می‌کنیم که به این معنی است که همه ربات‌ها باید از دستوری که در ادامه آمده، پیروی کنند. مانند نمونه زیر:

User-agent: *

Disallow: /wp-admin/

اهمیت استفاده صحیح از این دستور زمانی بیشتر مشخص می‌شود که بدانیم گوگل و دیگر موتورهای جستجو از انواع مختلف ربات‌های خزنده برای خزش و نمایه‌گذاری عادی صفحات، خزش تصاویر، ویدیوها و … استفاده می‌کنند. بنابراین، مشخص کردن نوع ربات جستجو در دستور User-Agent در زمان وجود دستورات زیاد در فایل robots.txt، به ربات‌ها کمک می‌کند تا بتوانند دستورات خاصی را دنبال کنند.

2. دستور Disallow برای مشخص کردن قسمت‌های ممنوعه استفاده می‌شود

دستور بعدی که در فایل robots.txt وجود دارد، دستور Disallow نامیده می‌شود. با استفاده از این دستور، شما می‌توانید مشخص کنید که کدام فایل‌ها یا بخش‌های وب‌سایت برای ربات‌های جستجو ممنوع است. وقتی این دستور را به کار می‌برید، ربات جستجو متوجه می‌شود که کدام قسمت‌های وب‌سایت را نباید بررسی کند.

  1. به عنوان مثال، در نمونه زیر به ربات‌ها اعلام کرده‌ایم که به صفحه مدیریت وردپرس دسترسی نداشته باشند:

User-agent: *

Disallow: /wp-admin/

هر فایل ربات تکست می‌تواند شامل چندین دستور Disallow باشد که هر یک به بخش‌های مختلفی از وب‌سایت اشاره می‌کنند. نکته مهم این است که اگر در مقابل دستور Disallow مقصدی مشخص نکنید و خط آن را خالی بگذارید، هیچ محدودیتی برای وب‌سایت تعیین نکرده‌اید و ربات جستجو به آن توجهی نخواهد کرد.

  • ربات جستجو این‌گونه برداشت می‌کند که شما هیچ فایلی را برای او بسته نیست. مانند نمونه زیر:

User-agent: *

Disallow: /

همچنین باید بدانید که علامت «/» در دستورات فایل ربات تکست به معنای پوشه یا فایل است.

  • بنابراین، دستور زیر به همه ربات‌های جستجو می‌گوید که اجازه ورود به پوشه دایرکتوری مدیریت وردپرس را ندارند.

User-agent: *

Disallow: /wp-admin/

  • اگر بخواهیم دسترسی تمامی ربات‌های جستجو را به تمام پوشه‌های وب‌سایت محدود کنیم، می‌توانیم از دستور زیر استفاده کنیم:

User-agent: *

Disallow: /

  • نکته‌ای که باید به آن توجه کنید این است که در فهرست زیر، دو نکته مهم در استفاده از این دستورات ذکر شده است:

دستورات Disallow و Allow در فایل robots.txt به حروف بزرگ و کوچک حساس نیستند، اما مقادیری که بعد از علامت «:» قرار می‌گیرند، به این موضوع حساس هستند. به عنوان مثال، ربات جستجو پوشه‌های /photo/ و /Photo/ را به عنوان دو پوشه متفاوت در نظر می‌گیرد.

با اینکه نام این دو دستور حساسیتی به حروف بزرگ و کوچک ندارد، بهتر است در فایل ربات تکست سطرهای مربوط به آن‌ها را با حروف بزرگ آغاز کنید تا خواندن فایل برای شما راحت‌تر باشد.

تا اینجا با دو دستور اصلی فایل robots.txt آشنا شدید و کاربردهای آن‌ها را دانستید. در ادامه، به بررسی دستورات دیگر این فایل خواهیم پرداخت.

3. دستور Allow در فایل robots.txt چه کاربردی برای مشخص کردن بخش‌های مجاز دارد؟

دستور بعدی که در فایل robots.txt وجود دارد، دستور Allow است که تا زمان نگارش این متن، ربات‌های جستجوی «Bingbot» و «Googlebot» آن را درک می‌کنند. با استفاده از این دستور، به موتورهای جستجو اعلام می‌کنید که با وجود مسدود بودن پوشه یا دایرکتوری اصلی، اجازه خزش در یک پوشه یا دایرکتوری فرعی خاص را دارند. به عنوان مثال، در نمونه زیر، دسترسی ربات گوگل به تمامی پست‌های وبلاگ را مسدود کرده‌ایم، اما در خط بعدی از او خواسته‌ایم که یک بلاگ‌پست خاص را خزش کند:

User-agent: Googlebot

Disallow: /blog

Allow: /blog/example-post

با این دستور، ربات گوگل نمی‌تواند به پست‌های وبلاگ دسترسی پیدا کند، اما به بلاگ‌پست خاصی که آدرس آن را مشخص کرده‌ایم، دسترسی دارد و آن را بررسی می‌کند.

4. دستور Sitemap برای نمایش آدرس فایل نقشه سایت

دستور بعدی و بسیار مهم در فایل robots.txt، دستور Sitemap است که به ربات‌های جستجو کمک می‌کند تا آدرس سایت‌مپ را دریافت کنند. سایت‌مپ یک فایل متنی است که شامل صفحات کلیدی وب‌سایت شماست و شما می‌خواهید این صفحات به‌طور کامل مورد بررسی و نمایه‌گذاری قرار گیرند. این دستور معمولاً در بالای فایل ربات تکست یا در پایین آن قرار می‌گیرد.

اضافه کردن دستور sitemap به فایل robots.txt یک روش سریع و مطمئن برای معرفی نقشه سایت به ربات‌های جستجو به شمار می‌آید. اما نباید فراموش کنید که بهترین و اصلی‌ترین راه برای ارائه سایت‌مپ به موتورهای جستجو، ثبت آن در ابزارهای مدیریت وب‌سایت مانند سرچ کنسول گوگل است. این کار را می‌توانید از طریق بخش «گزارش Indexing»، قسمت «Sitemaps» و گزینه «Add a new sitemap» انجام دهید.

موتورهای جستجو در نهایت به صفحات وب‌سایت شما سر می‌زنند، اما با ارائه نقشه سایت، می‌توانید سرعت خزش صفحات کلیدی را افزایش دهید. بنابراین، حتماً این مرحله را فراموش نکنید.

تا اینجا به‌خوبی با مهم‌ترین دستورات فایل robots.txt آشنا شده‌اید و می‌دانید چگونه از آن‌ها بهره‌برداری کنید. حالا در ادامه، درباره دو دستور جدید دیگر صحبت خواهیم کرد.

5. دستور Crawl-Delay برای ایجاد تأخیر در نمایه‌گذاری ربات‌های جستجو

دستوری که ممکن است در فایل robots.txt مشاهده کنید، دستور Crawl-Delay نام دارد. این دستور به ربات‌های جستجو می‌گوید که درخواست‌های خزش صفحات را با تأخیر به سرور ارسال کنند. در دنیای سئو، به تعداد درخواست‌هایی که ربات‌های گوگل در هر ثانیه برای خزش وب‌سایت به سرور می‌فرستند، «نرخ خزش» (Crawl Rate) گفته می‌شود. هدف از این دستور، کاهش بار سرور و جلوگیری از کند شدن عملکرد وب‌سایت است.

موتور جستجوی گوگل دیگر به دستور Crawl-Delay توجهی ندارد و برای تنظیم نرخ خزش ربات‌ها باید از طریق سرچ کنسول اقدام کنید. اما موتور جستجوی بینگ هنوز به این دستور عمل می‌کند. در مثال زیر، به ربات‌های موتور جستجو اعلام کردیم که بین هر بار خزش، ۱۰ ثانیه صبر کنند:

User-agent: *

Crawl-delay: 10

6. استفاده از دستور Noindex برای خارج کردن صفحه از نتایج جستجو

دستور قدیمی و نهایی در فایل robots.txt که گوگل هرگز به‌طور رسمی از آن پیروی نکرده، دستور noindex نام دارد. این دستور به نظر می‌رسد که مانع از نمایه‌گذاری و نمایش صفحه در نتایج جستجو می‌شود. همان‌طور که در ابتدای مطلب به ارتباط بین تگ noindex و فایل robots.txt اشاره کردیم، فایل ربات به ربات‌های جستجو دستورالعمل‌هایی درباره نحوه خزش در بخش‌های مختلف وب‌سایت می‌دهد، اما نمی‌تواند به موتورهای جستجو بگوید کدام لینک‌های خاص باید نمایه‌گذاری شوند و در نتایج جستجو به کاربران نمایش داده شوند.

آیا فایل robots.txt بهتر است یا تگ متا noindex؟

چرا وقتی می‌توانید با استفاده از متا تگ «noindex» صفحات را در سطح صفحه مسدود کنید، از فایلrobots.txt بهره می‌برید؟

استفاده از تگ noindex برای منابع چندرسانه‌ای مانند ویدیوها و فایل‌های PDF ممکن است چالش‌برانگیز باشد. همچنین، اگر تعداد زیادی صفحه دارید که می‌خواهید مسدود کنید، گاهی اوقات به جای اضافه کردن دستی تگ noindex به هر صفحه، مسدود کردن کل بخش سایت با ربات تکست راحت‌تر است. در برخی موارد، ممکن است نخواهید هیچ بودجه خزشی را برای بازدید گوگل از صفحاتی که تگ noindex دارند، صرف کنید. بنابراین، به جز این سه مورد، پیشنهاد می‌کنیم به جای استفاده از ربات تکست، از دستورات متا بهره ببرید. پیاده‌سازی آن‌ها ساده‌تر است و خطر بروز مشکلاتی مانند مسدود کردن کل سایت شما کمتر است.

جمع بندی

فایل Robot.txt یک فایل متنی است که به منظور بهینه‌سازی سئو سایت و مدیریت ایندکس‌های گوگل استفاده می‌شود. در این مقاله، تلاش کردیم تمام نکات ضروری درباره فایل ربات تکست را برای شما توضیح دهیم. هنگام استفاده از دستورات در این فایل، باید بسیار دقت کنید، زیرا هر گونه اشتباه می‌تواند زحمات شما در وب‌سایت را تحت تأثیر قرار دهد.

توصیه می‌شود از روش‌های کلاه سیاه سئو پرهیز کنید؛ زیرا این روش‌ها مانند شمشیری دو لبه هستند و ممکن است سایت شما به طور موقت یا دائمی توسط گوگل جریمه شود. اگر جریمه دائمی شوید، تقریباً هیچ راهی برای بازگشت نخواهید داشت و باید به فکر راه‌اندازی یک سایت جدید باشید.

سوالات متداول

ربات تکست در سئو چه کاربردی دارد؟

فایل robot.txt یک فایل متنی است که در بهینه‌سازی موتور جستجو (سئو) کاربرد دارد و شامل دستوراتی برای روبات‌های جستجوگر است. این فایل مشخص می‌کند که کدام صفحات می‌توانند ایندکس شوند و کدام صفحات نمی‌توانند.

فایل robots.txt چه نامی دارد؟

یک فایل robots.txt شامل دستورالعمل‌هایی برای ربات‌ها است. این فایل معمولاً در فایل‌های منبع اکثر وب‌سایت‌ها وجود دارد. هدف اصلی ربات تکست مدیریت فعالیت‌های ربات‌های مفید مانند خزنده‌های وب است، زیرا ربات‌های مخرب معمولاً به این دستورالعمل‌ها توجهی نمی‌کنند.

کدام گزینه مناسب‌تر است؟ Robots.txt یا noindex؟

برای سه حالت زیر از فایل robot.txt بهره ببرید. در غیر این صورت، احتمالاً استفاده از متا تگ نوایندکس گزینه بهتری برای شما خواهد بود.

  • استفاده از ربات تکست برای مدیریت منابع چندرسانه‌ای مانند ویدیوها و فایل‌های PDF
  • نیاز به محدود کردن بودجه خزنده برای تعداد زیادی از صفحات
  • موارد خاصی که به طور کلی نیازی به خزیدن ندارند.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *