فایل Robots.txt یکی از بخشهای کمتر شناختهشده برای سئوکاران مبتدی است. به طور کلی، این فایل دستورالعملهایی را برای رباتهای موتورهای جستجو تعیین میکند. این فایل مشخص می کند که آیا موتورهای جستجو اجازه دسترسی به بخشهای خاصی از سایت را دارند یا خیر.
در این مقاله به سادهترین شکل ممکن به آموزش فایل Robots.txt خواهیم پرداخت و با کاربرد آن در وبسایتها آشنا خواهیم شد. در پایان، شما به طور کامل با این فایل آشنا خواهید شد و نحوه ایجاد و ویرایش آن را یاد خواهید گرفت. پس با ما همراه باشید.
شرکت آوین سئو خدمات بسیاری در طراحی سایت و بازرسی سئو سایت با مشاوره رایگان با شما است.
تعریف فایل Robots txt
فایل robots.txt یک فایل متنی کوچک در وبسایت است که شامل چند دستور ساده برای مدیریت دسترسی رباتهای جستجو به صفحات وبسایت میباشد. به عبارت دیگر، با استفاده از دو فرمان ساده Allow و Disallow در این فایل، میتوانیم دسترسی رباتها و خزندههایی را که برای بررسی و خزش صفحات و فایلهای وبسایت وارد میشوند، مجاز یا محدود کنیم.
فایل Robots.txt چه کاربردی دارد؟
پوشه robots.txt در هاست و در دایرکتوری اصلی سایت قرار دارد.
این فایل شامل دستوراتی است که به خزندههای موتورهای جستجو اجازه میدهد تا نحوه دسترسی به صفحات سایت را تعیین کنند.
به طور معمول، زمانی که موتورهای جستجو به سایت مراجعه میکنند، اولین فایلی که بررسی میکنند همین فایل ربوتس است.
سپس بر اساس دستورالعملهای موجود، شروع به بررسی محتوای سایت میکنند.
برای مثال، اگر وبمستر بخواهد که بخشی از سایت در نتایج جستجو نمایش داده نشود، میتواند با استفاده از دستور “disallow” در فایل robots.txt آن بخش را مسدود کند.
سوالی که به ذهن میرسد این است که هدف اصلی ما از بهینهسازی سایت، افزایش ترافیک ورودی آن است.
اما چرا باید اقداماتی انجام دهیم که برخی صفحات ایندکس نشوند؟
دلایل مختلفی وجود دارد که میتواند مانع ایندکس شدن برخی صفحات سایت شود، از جمله:
- در مرحله طراحی سایت
- پنهان کردن صفحات غیرضروری پس از طراحی
- حذف برخی محتواهای خاص از ایندکس گوگل
- پنهان کردن صفحات بیارزش، تکراری، زامبی و موارد مشابه.
چرا وبسایت به فایل robots.txt احتیاج دارد؟
فایل robots.txt یکی از ابزارهای مهم در مدیریت دسترسی رباتهای جستجو به وبسایتهاست. با استفاده از این فایل، میتوانیم تعیین کنیم که رباتها به کدام بخشها یا صفحات وبسایت دسترسی داشته باشند یا نداشته باشند. به طور کلی، کاربردهای این فایل شامل موارد زیر است:
- تعیین محدودیت یا اجازه دسترسی رباتها به بخشهای مختلف وبسایت
- بهینهسازی «بودجه خزش» (Crawl Budget) با جلوگیری از دسترسی رباتها به صفحات کماهمیت (مثل صفحات ورود، تشکر، سبد خرید و …)
- جلوگیری از خزش و نمایهگذاری فایلهای pdf و تصاویر توسط رباتهای جستجو
- نمایش آدرس «نقشه سایت» (Sitemap)
تا اینجا با مفهوم و کاربردهای فایل robots.txt آشنا شدید. در ادامه، بیشتر درباره کاربردهای این فایل صحبت خواهیم کرد و نحوه ساخت آن و استفاده از دستورات مختلف را یاد خواهید گرفت. در مرحله اول، در بخش بعدی توضیح خواهیم داد که چگونه میتوانید فایل robots.txt وبسایتهای مختلف را مشاهده کنید.
فایل ربات تی ایکس تی چگونه عمل میکند؟
برای درک بهتر عملکرد فایل robots.txt، ابتدا باید نگاهی به نحوه کار موتورهای جستجو بیندازیم. هر موتور جستجو برای نمایش نتایج مرتبط به کاربران، دو کار اصلی انجام میدهد:
- «خزش» (Crawling) وب برای یافتن محتوا
- «نمایهگذاری» (Indexing) محتوا و افزودن آن به پایگاهداده موتور جستجو به منظور نمایش در نتایج جستجو
این فرایند توسط «رباتها» یا «خزندهها» (Crawler) انجام میشود که با دنبال کردن لینکهای موجود در صفحات، به وبسایتهای مختلف وارد میشوند و اطلاعات آنها را خزش میکنند. در این مرحله، فایل robots.txt نقش مهمی ایفا میکند. خزندهها پس از ورود به وبسایت، ابتدا به دنبال فایل robots.txt میگردند تا دستورالعملهای خزش صفحات را از آن دریافت کنند.
اگر وبسایت فاقد فایل ربات تی ایکس تی باشد یا رباتها نتوانند آن را پیدا کنند، تصمیم میگیرند که تمام صفحات وبسایت را خزش کنند. اگر هر وبسایت را به عنوان یک شهر جدید در نظر بگیریم و رباتهای جستجو را به عنوان خودروهای ورودی، فایل ربات تی ایکس تی مانند یک دفترچه راهنمای کوچک است که برای گشت و گذار در آن شهر به آن نیاز داریم.
آموزش ایجاد فایل Robots.txt
در این قسمت به بررسی نحوه ایجاد فایل robots برای وبسایت میپردازیم.
ابتدا یاد میگیریم که چگونه میتوانیم وجود یا عدم وجود این فایل را در سایت خود بررسی کنیم.
سپس به این سوال پاسخ میدهیم که اگر فایل robots در وبسایت ما وجود نداشته باشد، چه پیامدهایی خواهد داشت؟
در پایان، پس از آشنایی با کدهای robots.txt، روش ساخت این فایل را یاد خواهیم گرفت.
بررسی فایل Robots در وبسایت
در سئو سایت وردپرس، به طور پیشفرض یک فایل به نام robots.txt ایجاد میشود.
این فایل را میتوانید از طریق آدرس زیر مشاهده کنید: example.com/robots.txt
برای بررسی وجود این فایل در وبسایت خود، کافیست به جای example.com، آدرس سایت خود را وارد کنید.
اگر پس از وارد کردن آدرس با صفحه ۴۰۴ روبرو شدید، به این معناست که وبسایت شما فاقد فایل robots.txt است.
در این صورت، لازم است که این فایل را به صورت دستی ایجاد کنید.
آیا نبود فایل Robots.txt میتواند تأثیری منفی بر سئو داشته باشد؟
استفاده از این فایل به منظور مدیریت دسترسی موتورهای جستجوی گوگل بسیار حائز اهمیت است. همانطور که اشاره کردیم، وقتی یک وبمستر یا مدیر سایت تصمیم به انتشار صفحهای در وبسایت خود میگیرد و آن صفحه ممکن است برخی از اصول سئو سایت کد نویسی را نقض کند، لازم است از دستورات موجود در فایل ربات تکست بهرهبرداری کند.
بهینهسازی وبسایت با استفاده از فایل Robots.txt
در طول روز، صدها و حتی ممکن است هزاران ربات از سوی گوگل به سایتها مراجعه کنند و اطلاعات آنها را جمعآوری کنند. به عنوان مثال، اگر 1000 ربات به سایت شما وارد شوند، بدون تردید عملکرد و سرعت بارگذاری صفحات شما به شدت تحت تأثیر قرار خواهد گرفت.
در چنین وضعیتی، برای بهبود عملکرد سایت، لازم است که تعداد رباتهای موتور جستجوی گوگل را محدود کنیم. برای این کار، میتوان از فایل Robots.txt بهره برد.
مدیریت آدرسها و لینکها با استفاده از فایلRobots.txt
مدیریت تعداد زیادی URL و لینک برای مدیران وبسایتها کار آسانی نیست. با استفاده از فایل Robot.txt میتوانید به راحتی لینکها و آدرسهای سایت خود را مدیریت کنید و هر زمان که نیاز داشتید، تغییرات لازم را اعمال کنید.
یکی از تکنیکهای رایج در سئو، URL Cloaking است که برای پنهان کردن آدرس صفحات از دید موتورهای جستجو و کاربران به کار میرود.
اگر شما یک سئوکار حرفهای نیستید، به هیچ وجه به سراغ این روش نروید؛ زیرا این تکنیک جزو سئوهای کلاه سیاه محسوب میشود و باید تنها توسط افراد متخصص و با تجربه انجام شود.
در غیر این صورت، ممکن است سایت شما به طور دائمی از نتایج گوگل حذف و پنالتی شود که این موضوع میتواند تمام زحمات شما را به باد دهد. URL Cloaking به گونهای عمل میکند که قوانین و شرایط گوگل را به طور کامل نقض میکند و به همین دلیل به آن سئوی کلاه سیاه میگویند.
حداکثر کردن بودجه خزش
اگر در ایندکس کردن تمامی صفحات خود دچار مشکل هستید، ممکن است با محدودیت بودجه خزش روبرو باشید. با مسدود کردن صفحات کماهمیت از طریق فایلrobots.txt، میتوانید به گوگل بات کمک کنید تا بیشتر بودجه خزش شما را به صفحاتی اختصاص دهد که واقعاً اهمیت دارند.
معرفی دستورات فایل robots.txt
فایل robots.txt با استفاده از دستورات خاصی که در آن قرار میدهیم، به رباتهای جستجو میگوید که آیا باید به صفحات خاصی دسترسی پیدا کنند یا خیر. بهطور کلی، در این فایل شش نوع دستور وجود دارد.
در بخش بعدی به بررسی کاربرد و محل استفاده هر یک از این دستورات در فایل robots.txt خواهیم پرداخت.
1. User-Agent برای شناسایی رباتهای جستجو
هر گروه دستوری در فایل robots.txt با دستور User-Agent آغاز میشود و تا دستور User-Agent بعدی ادامه دارد. با استفاده از دستور User-Agent مشخص میکنیم که کدام یک از رباتهای جستجو باید از دستوری که در سطر بعدی آمده، پیروی کنند. به عنوان مثال، اگر بخواهیم به «ربات جستجوی گوگل» (Googlebot) بگوییم که صفحه مدیریت وردپرس را خزش نکند، باید دستور را به شکل زیر بنویسیم:
User-agent: Googlebot
Disallow: /wp-admin/
دستور User-Agent بر اساس نوع ربات، به دو صورت در فایل robots.txt نوشته میشود:
- در حالت اول، نوع ربات را بهطور مشخص تعیین میکنیم. برای مثال در نمونه بالا، تمامی رباتهای موتور جستجوی گوگل از دستور Disallow که بعد از آن آمده، پیروی میکنند.
- در حالت دوم، بهجای تعیین نوع ربات، از علامت «*» استفاده میکنیم که به این معنی است که همه رباتها باید از دستوری که در ادامه آمده، پیروی کنند. مانند نمونه زیر:
User-agent: *
Disallow: /wp-admin/
اهمیت استفاده صحیح از این دستور زمانی بیشتر مشخص میشود که بدانیم گوگل و دیگر موتورهای جستجو از انواع مختلف رباتهای خزنده برای خزش و نمایهگذاری عادی صفحات، خزش تصاویر، ویدیوها و … استفاده میکنند. بنابراین، مشخص کردن نوع ربات جستجو در دستور User-Agent در زمان وجود دستورات زیاد در فایل robots.txt، به رباتها کمک میکند تا بتوانند دستورات خاصی را دنبال کنند.
2. دستور Disallow برای مشخص کردن قسمتهای ممنوعه استفاده میشود
دستور بعدی که در فایل robots.txt وجود دارد، دستور Disallow نامیده میشود. با استفاده از این دستور، شما میتوانید مشخص کنید که کدام فایلها یا بخشهای وبسایت برای رباتهای جستجو ممنوع است. وقتی این دستور را به کار میبرید، ربات جستجو متوجه میشود که کدام قسمتهای وبسایت را نباید بررسی کند.
- به عنوان مثال، در نمونه زیر به رباتها اعلام کردهایم که به صفحه مدیریت وردپرس دسترسی نداشته باشند:
User-agent: *
Disallow: /wp-admin/
هر فایل ربات تکست میتواند شامل چندین دستور Disallow باشد که هر یک به بخشهای مختلفی از وبسایت اشاره میکنند. نکته مهم این است که اگر در مقابل دستور Disallow مقصدی مشخص نکنید و خط آن را خالی بگذارید، هیچ محدودیتی برای وبسایت تعیین نکردهاید و ربات جستجو به آن توجهی نخواهد کرد.
- ربات جستجو اینگونه برداشت میکند که شما هیچ فایلی را برای او بسته نیست. مانند نمونه زیر:
User-agent: *
Disallow: /
همچنین باید بدانید که علامت «/» در دستورات فایل ربات تکست به معنای پوشه یا فایل است.
- بنابراین، دستور زیر به همه رباتهای جستجو میگوید که اجازه ورود به پوشه دایرکتوری مدیریت وردپرس را ندارند.
User-agent: *
Disallow: /wp-admin/
- اگر بخواهیم دسترسی تمامی رباتهای جستجو را به تمام پوشههای وبسایت محدود کنیم، میتوانیم از دستور زیر استفاده کنیم:
User-agent: *
Disallow: /
- نکتهای که باید به آن توجه کنید این است که در فهرست زیر، دو نکته مهم در استفاده از این دستورات ذکر شده است:
دستورات Disallow و Allow در فایل robots.txt به حروف بزرگ و کوچک حساس نیستند، اما مقادیری که بعد از علامت «:» قرار میگیرند، به این موضوع حساس هستند. به عنوان مثال، ربات جستجو پوشههای /photo/ و /Photo/ را به عنوان دو پوشه متفاوت در نظر میگیرد.
با اینکه نام این دو دستور حساسیتی به حروف بزرگ و کوچک ندارد، بهتر است در فایل ربات تکست سطرهای مربوط به آنها را با حروف بزرگ آغاز کنید تا خواندن فایل برای شما راحتتر باشد.
تا اینجا با دو دستور اصلی فایل robots.txt آشنا شدید و کاربردهای آنها را دانستید. در ادامه، به بررسی دستورات دیگر این فایل خواهیم پرداخت.
3. دستور Allow در فایل robots.txt چه کاربردی برای مشخص کردن بخشهای مجاز دارد؟
دستور بعدی که در فایل robots.txt وجود دارد، دستور Allow است که تا زمان نگارش این متن، رباتهای جستجوی «Bingbot» و «Googlebot» آن را درک میکنند. با استفاده از این دستور، به موتورهای جستجو اعلام میکنید که با وجود مسدود بودن پوشه یا دایرکتوری اصلی، اجازه خزش در یک پوشه یا دایرکتوری فرعی خاص را دارند. به عنوان مثال، در نمونه زیر، دسترسی ربات گوگل به تمامی پستهای وبلاگ را مسدود کردهایم، اما در خط بعدی از او خواستهایم که یک بلاگپست خاص را خزش کند:
User-agent: Googlebot
Disallow: /blog
Allow: /blog/example-post
با این دستور، ربات گوگل نمیتواند به پستهای وبلاگ دسترسی پیدا کند، اما به بلاگپست خاصی که آدرس آن را مشخص کردهایم، دسترسی دارد و آن را بررسی میکند.
4. دستور Sitemap برای نمایش آدرس فایل نقشه سایت
دستور بعدی و بسیار مهم در فایل robots.txt، دستور Sitemap است که به رباتهای جستجو کمک میکند تا آدرس سایتمپ را دریافت کنند. سایتمپ یک فایل متنی است که شامل صفحات کلیدی وبسایت شماست و شما میخواهید این صفحات بهطور کامل مورد بررسی و نمایهگذاری قرار گیرند. این دستور معمولاً در بالای فایل ربات تکست یا در پایین آن قرار میگیرد.
اضافه کردن دستور sitemap به فایل robots.txt یک روش سریع و مطمئن برای معرفی نقشه سایت به رباتهای جستجو به شمار میآید. اما نباید فراموش کنید که بهترین و اصلیترین راه برای ارائه سایتمپ به موتورهای جستجو، ثبت آن در ابزارهای مدیریت وبسایت مانند سرچ کنسول گوگل است. این کار را میتوانید از طریق بخش «گزارش Indexing»، قسمت «Sitemaps» و گزینه «Add a new sitemap» انجام دهید.
موتورهای جستجو در نهایت به صفحات وبسایت شما سر میزنند، اما با ارائه نقشه سایت، میتوانید سرعت خزش صفحات کلیدی را افزایش دهید. بنابراین، حتماً این مرحله را فراموش نکنید.
تا اینجا بهخوبی با مهمترین دستورات فایل robots.txt آشنا شدهاید و میدانید چگونه از آنها بهرهبرداری کنید. حالا در ادامه، درباره دو دستور جدید دیگر صحبت خواهیم کرد.
5. دستور Crawl-Delay برای ایجاد تأخیر در نمایهگذاری رباتهای جستجو
دستوری که ممکن است در فایل robots.txt مشاهده کنید، دستور Crawl-Delay نام دارد. این دستور به رباتهای جستجو میگوید که درخواستهای خزش صفحات را با تأخیر به سرور ارسال کنند. در دنیای سئو، به تعداد درخواستهایی که رباتهای گوگل در هر ثانیه برای خزش وبسایت به سرور میفرستند، «نرخ خزش» (Crawl Rate) گفته میشود. هدف از این دستور، کاهش بار سرور و جلوگیری از کند شدن عملکرد وبسایت است.
موتور جستجوی گوگل دیگر به دستور Crawl-Delay توجهی ندارد و برای تنظیم نرخ خزش رباتها باید از طریق سرچ کنسول اقدام کنید. اما موتور جستجوی بینگ هنوز به این دستور عمل میکند. در مثال زیر، به رباتهای موتور جستجو اعلام کردیم که بین هر بار خزش، ۱۰ ثانیه صبر کنند:
User-agent: *
Crawl-delay: 10
6. استفاده از دستور Noindex برای خارج کردن صفحه از نتایج جستجو
دستور قدیمی و نهایی در فایل robots.txt که گوگل هرگز بهطور رسمی از آن پیروی نکرده، دستور noindex نام دارد. این دستور به نظر میرسد که مانع از نمایهگذاری و نمایش صفحه در نتایج جستجو میشود. همانطور که در ابتدای مطلب به ارتباط بین تگ noindex و فایل robots.txt اشاره کردیم، فایل ربات به رباتهای جستجو دستورالعملهایی درباره نحوه خزش در بخشهای مختلف وبسایت میدهد، اما نمیتواند به موتورهای جستجو بگوید کدام لینکهای خاص باید نمایهگذاری شوند و در نتایج جستجو به کاربران نمایش داده شوند.
آیا فایل robots.txt بهتر است یا تگ متا noindex؟
چرا وقتی میتوانید با استفاده از متا تگ «noindex» صفحات را در سطح صفحه مسدود کنید، از فایلrobots.txt بهره میبرید؟
استفاده از تگ noindex برای منابع چندرسانهای مانند ویدیوها و فایلهای PDF ممکن است چالشبرانگیز باشد. همچنین، اگر تعداد زیادی صفحه دارید که میخواهید مسدود کنید، گاهی اوقات به جای اضافه کردن دستی تگ noindex به هر صفحه، مسدود کردن کل بخش سایت با ربات تکست راحتتر است. در برخی موارد، ممکن است نخواهید هیچ بودجه خزشی را برای بازدید گوگل از صفحاتی که تگ noindex دارند، صرف کنید. بنابراین، به جز این سه مورد، پیشنهاد میکنیم به جای استفاده از ربات تکست، از دستورات متا بهره ببرید. پیادهسازی آنها سادهتر است و خطر بروز مشکلاتی مانند مسدود کردن کل سایت شما کمتر است.
جمع بندی
فایل Robot.txt یک فایل متنی است که به منظور بهینهسازی سئو سایت و مدیریت ایندکسهای گوگل استفاده میشود. در این مقاله، تلاش کردیم تمام نکات ضروری درباره فایل ربات تکست را برای شما توضیح دهیم. هنگام استفاده از دستورات در این فایل، باید بسیار دقت کنید، زیرا هر گونه اشتباه میتواند زحمات شما در وبسایت را تحت تأثیر قرار دهد.
توصیه میشود از روشهای کلاه سیاه سئو پرهیز کنید؛ زیرا این روشها مانند شمشیری دو لبه هستند و ممکن است سایت شما به طور موقت یا دائمی توسط گوگل جریمه شود. اگر جریمه دائمی شوید، تقریباً هیچ راهی برای بازگشت نخواهید داشت و باید به فکر راهاندازی یک سایت جدید باشید.
سوالات متداول
ربات تکست در سئو چه کاربردی دارد؟
فایل robot.txt یک فایل متنی است که در بهینهسازی موتور جستجو (سئو) کاربرد دارد و شامل دستوراتی برای روباتهای جستجوگر است. این فایل مشخص میکند که کدام صفحات میتوانند ایندکس شوند و کدام صفحات نمیتوانند.
فایل robots.txt چه نامی دارد؟
یک فایل robots.txt شامل دستورالعملهایی برای رباتها است. این فایل معمولاً در فایلهای منبع اکثر وبسایتها وجود دارد. هدف اصلی ربات تکست مدیریت فعالیتهای رباتهای مفید مانند خزندههای وب است، زیرا رباتهای مخرب معمولاً به این دستورالعملها توجهی نمیکنند.
کدام گزینه مناسبتر است؟ Robots.txt یا noindex؟
برای سه حالت زیر از فایل robot.txt بهره ببرید. در غیر این صورت، احتمالاً استفاده از متا تگ نوایندکس گزینه بهتری برای شما خواهد بود.
- استفاده از ربات تکست برای مدیریت منابع چندرسانهای مانند ویدیوها و فایلهای PDF
- نیاز به محدود کردن بودجه خزنده برای تعداد زیادی از صفحات
- موارد خاصی که به طور کلی نیازی به خزیدن ندارند.
بدون دیدگاه