ملف robots.txt هو ملف نصي بسيط يوجه برامج الزحف (روبوتات محركات البحث) حول الصفحات والأقسام المسموح بزحفها أو المنع من الفهرسة ضمن موقعك. يعمل كمفتاح تحكم حاسم في إستراتيجية SEO، حيث يمنع تضييع ميزانية الزحف على محتوى غير مهم، ويحمي المحتوى الحساس من الظهور في نتائج البحث، ويسرع عملية اكتشاف المحتوى الجديد والمهم. الفهم الصحيح لكتابته وتطبيقه يمنع أخطاء كارثية مثل منع محركات البحث من فهرسة موقعك بالكامل.
ما هو ملف robots.txt؟
ملف robots.txt هو بروتوكول استبعاد الروبوتات. هو أول ما تزوره برامج الزحف عند دخولها إلى موقعك. يعطيهم تعليمات واضحة: أين يمكنكم الذهاب، وأين لا يمكنكم الزحف. فكر فيه كحارس أمن ذكي عند مدخل موقعك الإلكتروني.
مثال على ملف robots.txt
# ==============================================
# ملف robots.txt - إعدادات التحكم في ربوتات محركات البحث
# الموقع: example.com
# تاريخ التحديث: 2024
# ==============================================
# --------------------------------------------------
# القسم 1: إعدادات عامة لجميع روبوتات الزحف
# --------------------------------------------------
# User-agent: *
# توجيه موجه لجميع روبوتات الزحف (محركات البحث)
# * = نجمية تعني "جميع"
User-agent: *
# Disallow: /admin/
# منع زحف مجلد الإدارة بالكامل وحماية واجهة التحكم
# الشرطة المائلة / بعد اسم المجلد تعني المجلد وجميع محتوياته
Disallow: /admin/
# Disallow: /includes/
# منع زحف مجلد includes لحماية ملفات النظام الداخلية
# يحتوي عادة على ملفات PHP للوظائف والأقسام المشتركة
Disallow: /includes/
# Disallow: /tmp/
# منع مجلد الملفات المؤقتة لمنع فهرسة محتوى غير مهم
Disallow: /tmp/
# Allow: /public/images/
# السماح بزحل مجلد الصور العام رغم وجود قيود على مجلداته الأم
# Allow يتجاوز أي أمر Disallow لمجلد فرعي محدد
Allow: /public/images/
# --------------------------------------------------
# القسم 2: إعدادات خاصة بروبوت جوجل الرئيسي
# --------------------------------------------------
# User-agent: Googlebot
# توجيهات خاصة بروبوت جوجل الرئيسي للمحتوى النصي
# يمكن تخصيص إعدادات مختلفة لكل محرك بحث
User-agent: Googlebot
# Disallow: /search/
# منع زحل صفحات البحث الداخلية لمنع إنشاء محتوى مكرر
# صفحات البحث تخلق عددًا لا نهائيًا من عناوين URL المكررة
Disallow: /search/
# Allow: /blog/search-sitemap.xml
# استثناء: السماح بزحل ملف سايت ماب خاص بنتائج البحث المهمة
Allow: /blog/search-sitemap.xml
# --------------------------------------------------
# القسم 3: إعدادات خاصة بروبوت صور جوجل
# --------------------------------------------------
# User-agent: Googlebot-Image
# توجيهات خاصة بروبوت جوجل للصور
# يمكن التحكم بشكل منفصل في فهرسة الصور
User-agent: Googlebot-Image
# Disallow: /private-images/
# منع فهرسة الصور في المجلدات الخاصة وحماية حقوق الملكية
Disallow: /private-images/
# Allow: /public-gallery/
# السماح بفهرسة الصور في المعرض العام فقط
Allow: /public-gallery/
# --------------------------------------------------
# القسم 4: إعدادات خاصة بروبوت بينغ (Bing)
# --------------------------------------------------
# User-agent: Bingbot
# توجيهات خاصة بمحرك بحث مايكروسوفت (بينغ)
# بعض المحركات قد تستجيب لتوجيهات إضافية
User-agent: Bingbot
# Disallow: /api/
# منع زحل واجهات برمجة التطبيقات (API)
# تحتوي على بيانات خام غير مخصصة للبشر
Disallow: /api/
# Crawl-delay: 2
# تأخير الزحل: طلب من روبوت بينغ الانتظار ثانيتين بين طلبات الزحل
# يقلل الحمل على الخادم للمواقع الكبيرة
Crawl-delay: 2
# --------------------------------------------------
# القسم 5: توجيهات خريطة الموقع (Sitemap)
# --------------------------------------------------
# Sitemap: https://www.example.com/sitemap.xml
# تحديد موقع ملف خريطة الموقع الرئيسي
# يساعد محركات البحث على اكتشاف المحتوى الجديد بسرعة
Sitemap: https://www.example.com/sitemap.xml
# Sitemap: https://www.example.com/images-sitemap.xml
# ملف سايت ماب إضافي للصور (اختياري)
# يفيد في تحسين فهرسة الصور بشكل منفصل
Sitemap: https://www.example.com/images-sitemap.xml
# ==============================================
# نهاية ملف robots.txt
# ==============================================
# --------------------------------------------------
# ملاحظات هامة للمطورين:
# --------------------------------------------------
# 1. يجب وضع الملف في المجلد الجذر (root) للموقع
# 2. التأكد من أن الخادم يخدم الملف كنص عادي (text/plain)
# 3. اختبار الملف عبر أدوات مشرفي المواقع قبل النشر
# 4. المراجعة الدورية للتأكد من مواكبة التغييرات في هيكل الموقع
# 5. استخدام أدوات التحقق من الصحة لاكتشاف الأخطاء النحوية
# --------------------------------------------------يقع هذا الملف دائمًا في الدليل الرئيسي للموقع (مثل: www.example.com/robots.txt). هو ملف نصي عادي، مكتوب بتنسيق محدد يفهمه محركات البحث. دوره الأساسي هو التواصل مع روبوتات هذه المحركات بطريقة مهذبة وفعالة.
لماذا نحتاج إلى ملف robots.txt؟
دون ملف robots.txt، تتصرف برامج الزحف كضيف فضولي في منزلك. تفتح كل الأبواب، وتزور كل الغرف، بما في ذلك تلك التي تحتوي على فوضى أو أشخاصية خاصة. هذا يمكن أن يسبب عدة مشاكل:
- إهدار ميزانية الزحف: تخصص محركات Search “ميزانية زحف” محدودة لكل موقع. إذا أمضت الوقت في زحف صفحات غير مهمة (مثل صفحات الإدارة، أو سلة المشتريات)، فقد تهمل صفحاتك المهمة.
- فهرسة محتوى حساس: قد تظهر صفحات مثل “مسودة” للمنتجات أو صفحات إحصاءات داخلية في نتائج البحث، وهو أمر غير محبذ.
- إبطاء الموقع: يمكن لزحف عدد كبير جدًا من الصفحات غير الضرورية في وقت واحد أن يزيد الحمل على الخادم.
كيف يعمل ملف robots.txt؟
يعمل الملف بناءً على قواعد بسيطة. كل قاعدة تتكون من “وكيل المستخدم” (User-agent) يحدد الروبوت المستهدف، متبوعًا ببند “Disallow” أو “Allow” يحدد المسارات المسموح بها أو الممنوعة.
الصيغة الأساسية:
User-agent: [اسم الروبوت]
Disallow: [المسار الممنوع]
Allow: [المسار المسموح]- User-agent: يحدد الروبوت الذي تخاطبه. استخدام النجمة
*يعني جميع الروبوتات. - Disallow: يحدد المجلدات أو الملفات التي لا يمكن للروبوت زحفها.
- Allow: (اختياري) يستخدم لتجاوز أمر “Disallow” ضمن مسار محدد، للسماح بزحل جزء معين.
المكونات الأساسية لملف robots.txt
لفهم كيفية بناء الملف بشكل صحيح، يجب تفكيك مكوناته الرئيسية.
وكيل المستخدم (User-agent)
هو بمثابة عنوان الروبوت. كل محرك بحث له روبوت زحف رئيسي معروف باسمه. عند توجيه指令 معينة لوكيل مستخدم محدد، فإنك تخاطب ذلك الروبوت بشكل حصري.
أمثلة على وكلاء المستخدم الشائعة:
User-agent: *(جميع روبوتات الزحف)User-agent: Googlebot(روبوت الزحف الرئيسي لجوجل للمحتوى العادي)User-agent: Googlebot-Image(روبوت الزحف الخاص بصور جوجل)User-agent: Bingbot(روبوت الزحف الخاص بينغ)
توجيهات Disallow و Allow
هذه هي الأوامر الفعلية التي تتحكم في الوصول.
- Disallow: هو الأمر الأساسي للمنع. ترك السطر فارغًا بعد
Disallow:يعني السماح بزحل كل شيء. - Allow: هو أمر مساعد يستخدم غالبًا للاستثناء. فهو يسمح بالزحف إلى مسار محدد داخل منطقة ممنوعة بشكل عام.
توجيه Sitemap (خريطة الموقع)
هذا توجيه مهم جدًا لتحسين محركات البحث. إنه ليس أمرًا للزحل، بل هو مجرد إرشاد. يستخدم لإخبار روبوتات محركات البحث، وخاصة جوجل وبينغ، عن مكان وجود ملف Sitemap XML لموقعك. هذا يساعدهم على اكتشاف جميع صفحاتك المهمة بسرعة وكفاءة.
الصيغة:Sitemap: https://www.example.com/sitemap.xml
يمكنك إضافة هذا التوجيه في أي مكان في الملف، لكن يفضل وضعه في النهاية للوضوح.
كتابة ملف robots.txt بشكل صحيح: دليل عملي
الآن، لنتعمق في كيفية إنشاء ملف robots.txt فعال وخالٍ من الأخطاء.
أمثلة عملية لتركيبات مختلفة
دعنا ننظر إلى أمثلة شائعة لفهم كيفية عمل القواعد:
السماح الكامل لجميع الروبوتات:
User-agent: *
Disallow:(سطر Disallow فارغ يعني لا توجد ممنوعات).
المنع الكامل لجميع الروبوتات:
User-agent: *
Disallow: /(الشرطة المائلة / تعني “المنع من كل شيء”).
منع روبوت محدد من مجلد معين:
User-agent: Googlebot-Image
Disallow: /images/private/(يمنع روبوت صور جوجل من زحل مجلد الصور الخاص).
السماح بروبوت واحد ومنع الباقين:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /(يسمح فقط لروبوت جوجل الرئيسي بزحل كل شيء، ويمنع جميع الروبوتات الأخرى).
استخدام Allow لإنشاء استثناء:
User-agent: *
Disallow: /blog/
Allow: /blog/my-important-post/(يمنع زحل كل محتوى المدونة باستثناء صفحة واحدة محددة).
الأخطاء الشائعة التي يجب تجنبها
الخطأ في ملف robots.txt يمكن أن يكون له عواقب وخيمة على ظهورك في البحث.
- الأخطاء الإملائية: كتابة
Disalowبدلاً منDisallowأوUser Agentبدلاً منUser-agentسيجعل التوجيه غير مقروء. - مسارات غير صحيحة: التأكد من أن المسارات بعد
Disallowتبدأ بشرطة مائلة/.Disallow: adminخاطئ، بينماDisallow: /adminصحيح. - منع المحتوى الأساسي: استخدام
Disallow: /عن طريق الخطأ يمنع فهرسة موقعك بالكامل. هذه من أكثر الأخطاء فداحة. - خلط بين المنع والفهرسة: تذكر أن
Disallowيمنع الزحف، وليس بالضرورة الفهرسة. إذا كانت هناك روابط داخلية قوية لصفحة ممنوعة من الزحل، فقد تظل محركات Search تفهرس عنوان URL بناءً على تلك الإشارات، لكنها لن تعرف محتوى الصفحة. لمنع الفهرسة تمامًا، استخدم علامةnoindexأو كلمة مرور. - عدم وجود سطر فارغ بين القواعد: يجب فصل كل مجموعة من
User-agentعن التي تليها بسطر فارغ.
ملف robots.txt و SEO: العلاقة الاستراتيجية
لفهم الأهمية الحقيقية لملف robots.txt، يجب النظر إليه كجزء من إستراتيجية تحسين محركات البحث الشاملة، وليس مجرد ملف تقني.
تحسين ميزانية الزحف (Crawl Budget Optimization)
ميزانية الزحل هي عدد الصفحات التي يمكن لبرامج زحل جوجل زحفها وإعادة زحفها في جلسة واحدة. للمواقع الكبيرة، هذا المورد ثمين. من خلال منع الزحل من الصفحات ذات الأولوية المنخفضة (مثل صفحات التصفية في المتاجر الإلكترونية، صفحات البحث الداخلية، ملفات CSS وJavaScript غير الضرورية للفهرسة)، فإنك توجه هذا المورد نحو صفحاتك الأكثر قيمة: صفحات المنتجات، المقالات، الصفحات الرئيسية. هذا يضمن اكتشاف المحتوى الجديد وتحديث المحتوى القديم بسرعة أكبر.
حماية المحتوى الحساس والمكرر
هناك محتوى لا تريد له أن يظهر في نتائج البحث أبدًا.
- مناطق الإدارة:
/wp-admin/ (في ووردبريس)، /admin/. - ملفات النظام: ملفات التكوين، السجلات.
- صفحات المستخدمين:
/my-account/. - نتائج البحث الداخلية:
search=...حيث يمكن أن تخلق عددًا لا حصر له من عناوين URL المكررة. - مسودات المحتوى.
منع زحل هذه المناطق يحمي خصوصيتك ويوقف إهدار ميزانية الزحل على محتوى مكرر أو حساس.
تسريع الاكتشاف عبر Sitemap
كما ذكرنا، توجيه Sitemap هو جسر مباشر بين ملف robots.txt وأحدث محتوى في موقعك. هو بمثابة خريطة الكنز التي تقدمها لمحركات البحث، مما يسهل عليها مهمة العثور على كل الصفحات القيمة وفهرستها بشكل أسرع.
الاختبار والتحقق: التأكد من صحة الملف
لا تكتمل عملية إنشاء ملف robots.txt دون اختبار دقيق.
كيفية اختبار ملف robots.txt
توفر جوجل أدوات مجانية رائعة لهذا الغرض.
- أداة اختبار robots.txt في Search Console:
- انتقل إلى Search Console واختر موقعك.
- من القائمة الجانبية، اذهب إلى “فحص العنوان > اختبار ملف robots.txt”.
- تسمح لك هذه الأداة برؤية محتوى الملف الحالي، وتحريره، واختبار سلوكه مع عناوين URL محددة ووكلاء مستخدم مختلفين.
- محاكاة الزحل: في نفس الأداة، يمكنك إدخال عنوان URL وتحديد User-agent لمعرفة ما إذا كان مسموحًا به أم ممنوعًا. هذا يمنحك تأكيدًا فوريًا على أن قواعدك تعمل كما هو مخطط له.
تحليل الزحل في Search Console
للحصول على رؤية أعمق، انتقل إلى “الإعدادات > إعدادات الزحل > إحصائيات الزحل” في Search Console. هنا يمكنك:
- رؤية عدد الصفحات التي تم زحفها يوميًا.
- معرفة الوقت الذي تستغرقه عملية الزحل.
- مراقبة حالة الاستجابة من الخادم (مثل أخطاء 404).
إذا لاحظت أن جوجل تزحل الكثير من الصفحات غير المهمة، فقد حان الوقت لمراجعة وتعديل ملف robots.txt.
ملف robots.txt المتقدم
للمواقع الأكثر تعقيدًا، هناك مفاهيم إضافية يجب فهمها.
الفرق بين الزحف والفهرسة
هذا تمييز بالغ الأهمية:
- الزحف (Crawling): هو عملية زيارة روبوتات المحرك لصفحة ما وقراءة محتواها.
- الفهرسة (Indexing): هي عملية إضافة هذه الصفحة إلى قاعدة بيانات المحرك (فهرس البحث) بحيث يمكن ظهورها في النتائج.
Disallow يمنع الزحف. إذا منعت الزحل، فلن تتمكن محركات البحث من رؤية المحتوى، وبالتالي لن تتم الفهرسة. لكن هناك طريقة أخرى لمنع الفهرسة مع السماح بالزحف، وهي باستخدام علامة noindex في الـ meta tag أو في رأس الاستجابة HTTP. في بعض السيناريوهات النادرة، قد تريد السماح بالزحف ولكن منع الفهرسة (مثل صفحة تحتوي على روابط مهمة تريد تمرير “قوة” منها، لكنك لا تريد ظهورها في البحث).
Crawl-Delay: هل ما زال مستخدمًا؟
Crawl-delay كان توجيهًا قديمًا يستخدم للتحكم في سرعة زحل الروبوتات لموقعك، لمنع إرباك الخادم. اليوم، تعترف جوجل بهذا التوجيه ولكنها تفضل استخدام إعداد “معدل الزحل” (Crawl rate) في Search Console. لبينغ، لا يزال Crawl-delay ذا صلة. بديل حديث وأكثر فعالية هو استخدام ملف robots.txt جنبًا إلى جنب مع تحسين أداء الموقع نفسه.
الأسئلة الشائعة (FAQ) حول ملف robots.txt
لا، ليس ضمانًا. Disallow يمنع الزحل، ولكن إذا كانت هناك روابط خارجية قوية صفحة ممنوعة، قد يظل عنوان URL يظهر في النتائج (لكن بدون وصف). لمنع الظهور تمامًا، استخدم noindex أو حماية بكلمة مرور.
يجب وضعه في المجلد الجذر الرئيسي للموقع. العنوان الصحيح دائمًا هو: https://www.example.com/robots.txt.
robots.txt يمنع الزحل (الزيارة). noindex يمنع الفهرسة (الإدراج في الفهرس). يمكن للصفحة التي تحتوي على noindex أن تُزحَل، بينما الصفحة الممنوعة في robots.txt لا يمكن زحلها أصلًا.
نعم، باستخدام User-agent: Googlebot-Image و Disallow للمجلدات التي تحتوي على الصور التي تريد إخفاءها. لكن تذكر أن الصور يمكن الوصول إليها مباشرة إذا عرف أحدهم رابطها.
إذا لم يكن الملف موجودًا، تفترض محركات البحث أن لديك الإذن بزحل كل شيء في موقعك، وستبدأ في فعل ذلك.
كيف أمنع جميع الروبوتات باستثناء جوجل وبينغ؟
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: *
Disallow: /هل يمكنني منع الزحل من ملفات معينة (مثل PDF)؟
نعم. مثال: User-agent: * Disallow: /private-file.pdf.
كم من الوقت يستغرق جوجل لملاحظة تغييراتي في robots.txt؟
عادةً ما يتم اكتشاف التغييرات بسرعة، خلال أيام قليلة. يمكنك استخدام أداة “إرسال إلى الفهرس” في Search Console بعد التعديل لتسريع العملية.
الخاتمة
ملف robots.txt هو أكثر من مجرد ملف تقني؛ هو وسيلة اتصال استراتيجية مع محركات البحث. من خلال كتابته بدقة، يمكنك حماية محتواك الحساس، وتوجيه ميزانية الزحل الثمينة نحو ما يهم حقًا، وتسريع عملية فهرسة محتواك الجديد. تجاهله يعرض موقعك لمخاطر إهدار الموارد وفقدان الفرص، بينما إتقانه يمنحك تحكمًا دقيقًا في رؤية موقعك على الإنترنت.
دعوة للعمل
لا تترك مقالتك تنتهي هنا. افتح نافذة جديدة وانتقل إلى موقعك.com/robots.txt الآن. افحص محتواه. استخدم أدوات Search Console لاختباره. قارن ما تراه بالأمثلة والمبادئ التي ناقشناها. ابدأ في صياغة نسخة محسنة تلبي احتياجات موقعك بالضبط. التحكم في زحل محركات البحث هو خطوتك الأولى نحو تحسين أعمق وأكثر ذكاءً لموقعك.



