السلام وعليكم
اليوم اقدم لكم موضوع مهم جدا وهو عن
منع الصفحات أو إزالتها باستخدام ملف robots.txt
تفضلو المضوع بالكامل
منع الصفحات أو إزالتها باستخدام ملف robots.txt
لن تتوفر أداة إنشاء ملف robots.txt بعد ذلك. يمكنك إنشاء ملف robots.txt يدويًا او استخدام إحدى أدوات إنشاء robots.txt العديدة على الويب.
يقيد ملف robots.txt الدخول إلى موقعك من خلال وحدات روبوت محركات البحث التي تزحف إلى الويب. وبرامج التتبع هذه تلقائية، وقبل أن تصل إلى صفحات أحد المواقع، تتحقق أولاً من وجود ملف robots.txt الذي يمنعها من الدخول إلى صفحات محددة. (جميع برامج الروبوت حسنة السمعة تحترم الأوامر المضمنة في ملف robots.txt، إلا أن البعض قد يفسرها على نحو مختلف. ومع ذلك، ليس ملف robots.txt ملزمًا، وقد يتجاهله بعض مرسلي الرسائل غير المرغوب فيها ومثيري المتاعب الآخرين. ولهذا السبب، ننصح باستخدام كلمة مرور لحماية المعلومات السرية.)
لمعرفة عناوين URL التي حظر Google الزحف إليها، يمكنك الانتقال إلى صفحة
عناوين URL المحظورة في قسم
الزحف في أدوات مشرفي المواقع.
ولا يلزم ملف robots.txt إلا إذا كان موقعك يتضمن محتوى لا تريد أن تفهرسه محركات البحث. أما إذا أردت أن تفهرس محركات البحث جميع محتوى موقعك، فلا يلزمك وجود ملف robots.txt (حتى ولو كان فارغًا).
على الرغم من أن Google لن يزحف إلى محتوى الصفحات التي يحظرها ملف robots.txt أو لن يفهرسها, إلا أننا قد نستمر في فهرسة عناوين URL إذا وجدناها في صفحات أخرى على الويب. ونتيجة لذلك، قد يظهر عنوان URL للصفحة وربما المعلومات الأخرى المتاحة بشكل عام مثل النص الأساسي لروابط الموقع، أو العنوان من مشروع الدليل المفتوح (www.dmoz.org)، ضمن نتائج بحث Google.
لاستخدام ملف robots.txt، يلزم الدخول إلى جذر النطاق (وإن لم تكن متأكدًا من ذلك، فراجع الأمر مع مضيف الويب). إذا لم يكن لك حق الدخول إلى جذر النطاق، فيمكنك تقييد الدخول باستخدام العلامة الوصفية لبرامج الروبوت.
لمنع إدراج محتويات صفحة ما تمامًا في فهرس الويب لـ Google، حتى ولو كانت المواقع الأخرى بها روابط إليها، استخدم العلامة الوصفية noindex أو x-robots-tag. وأثناء بحث Googlebot عن الصفحة لجلبها، ترصد العلامة الوصفية noindex وتمنع ظهور هذه الصفحة في فهرس الويب. ويعد رأس HTTP المعروف بـ x-robots-tag HTTP مفيدًا على وجه الخصوص إذا كنت تريد تقييد فهرسة ملفات غير ملفات HTML مثل الرسوم أو أنواع أخرى من المستندات.
يعتمد أبسط ملف robots.txt على قاعدتين:
- User-Agent: برنامج الروبوت الذي تنطبق عليه القاعدة التالية
- Disallow: عنوان URL الذي تريد حجبه
يتم اعتبار هذين السطرين إدخالاً واحدًا في الملف. يمكنك تضمين أي عدد تريده من الإدخالات. كما يمكنك تضمين سطور Disallow وUser-Agent متعددة في الإدخال الواحد.
كل قسم في ملف robots.txt مستقل بذاته، ولا يعتمد على الأقسام السابقة الأخرى. على سبيل المثال:
User-agent: *
Disallow: /folder1/
User-Agent: Googlebot
Disallow: /folder2/
في هذا المثال، سيتم فقط عدم السماح بزحف Googlebot إلى عناوين URL المطابقة لـ /folder2/.
وكلاء المستخدم وبرامج التتبع
وكيل المستخدم هو برنامج روبوت معين لمحرك البحث. ويندرج ضمن قاعدة بيانات برامج روبوت الويب العديد من برامج التتبع الشائعة. يمكنك تعيين إدخال لتطبيقه على برنامج تتبع محدد (بإدراج اسم برنامج التتبع) أو يمكنك تعيينه ليتم تطبيقه على جميع برامج التتبع (بإدراج علامة النجمة *). ويظهر الإدخال المطبق على جميع برامج التتبع بهذا الشكل:
User-agent: *
تستخدم Google العديد من برامج التتبع (وكلاء المستخدم) المختلفة. وبرنامج التتبع الذي نستخدمه لبحث الويب هو
Googlebot. وتعمل برامج التتبع الأخرى التي نستخدمها، مثل Googlebot للجوال وGooglebot-Image وفقًا للقواعد التي يتم إعدادها لبرنامج Googlebot، ولكن يمكنك أيضًا إعداد قواعد خاصة لهذه البرامج المحددة.
حظر وكلاء المستخدم
يعرض سطر Disallow الصفحات التي تريد حظر الدخول إليها. ويمكنك إدراج عنوان URL أو نمط محدد. ويجب أن يبدأ الإدخال بشرطة أمامية مائلة (/).
- لحجب الموقع بالكامل، استخدم شرطة أمامية مائلة.
Disallow: /
- لحجب دليل وكل ما يحتويه، اتبع اسم الدليل بشرطة أمامية مائلة.
Disallow: /junk-directory/
- لحجب صفحة، أدرج اسم الصفحة.
Disallow: /private_file.html
- لإزالة صورة معينة من صور Google، أضف ما يلي:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
- لإزالة جميع الصور على موقعك من صور Google:
User-agent: Googlebot-Image
Disallow: /
- لحجب نوع معين من الملفات (على سبيل المثال، .gif)، استخدم ما يلي:
User-agent: Googlebot
Disallow: /*.gif$
- لمنع الزحف إلى صفحات موقعك مع الاستمرار في عرض إعلانات AdSense على تلك الصفحات، امنع جميع برامج التتبع باستثناء Mediapartners-Google. وبذلك لا يتم عرض الصفحات ضمن نتائج البحث، ولكن يتم السماح لبرنامج الروبوت Mediapartners-Google بتحليل الصفحات لتحديد الإعلانات التي سيتم عرضها عليها. ولا يشارك برنامج روبوت Googlebot-MediaPartners الصفحات مع غيره من وكلاء المستخدمين من Google. على سبيل المثال:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
يرجى ملاحظة أن الأوامر تتأثر بحالة الأحرف. على سبيل المثال, يؤدي
- الكود:
-
Disallow: /junk_file.asp
إلى حظر الدخول إلى http://www.example.com/junk_file.asp، ولكنه سيسمح بالدخول إلى http://www.example.com/Junk_file.asp. وسيتجاهل Googlebot المسافة البيضاء (خصوصًا في الأسطر الخالية) والأوامر غير المعروفة في ملف robots.txt.
يتيح Googlebot إرسال ملفات Sitemap من خلال ملف robots.txt.
تطابق النمط
يراعي Googlebot (وليست جميع محركات البحث الأخرى) بعض تطابقات الأنماط.
- لمطابقة سلسلة من الرموز، استخدم علامة النجمة (*). على سبيل المثال، لمنع الدخول إلى جميع الأدلة الفرعية التي تبدأ بكلمة private:
User-agent: Googlebot
Disallow: /private*/
- لمنع الدخول إلى جميع عناوين URL التي تتضمن علامة استفهام (?) (وبتعبير أدق، أي عنوان URL يبدأ باسم نطاقك, متبوعًا بأية سلسلة, متبوعة بعلامة استفهام, متبوعة بأية سلسلة):
User-agent: Googlebot
Disallow: /*?
- لتحديد تطابق نهاية عنوان URL، استخدم الرمز $. على سبيل المثال، لحجب أية عناوين URL تنتهي بـ .xls:
User-agent: Googlebot
Disallow: /*.xls$
يمكنك استخدام هذا النوع من تطابق النمط مع الأمر Allow. على سبيل المثال، إذا كانت علامة ؟ تشير إلى معرِّف جلسة، فقد ترغب في استبعاد جميع عناوين URL التي تحتوي عليها لضمان عدم زحف Googlebot إلى صفحات مُكرَّرة. ولكن قد تكون عناوين URL التي تنتهي بعلامة ؟ إصدارًا للصفحة التي ترغب في تضمينها. ففي مثل هذه الحالة، يمكنك تعيين ملف robots.txt كما يلي:
User-agent: *
Allow: /*?$
Disallow: /*?
الأمر Disallow: / *? سيعمل على حظر الدخول إلى أي عنوان URL يتضمن العلامة (؟). (وبصورة أكثر دقة، سيحظر الدخول إلى أي عنوان URL يبدأ باسم نطاقك, متبوعًا بأية سلسلة, متبوعة بعلامة استفهام, متبوعة بأية سلسلة).
الأمر Allow: /*?$ سيسمح بالدخول إلى أي عنوان URL ينتهي بالعلامة ? (وبتعبير أدق، سيسمح لأي عنوان URL يبدأ باسم نطاقك، متبوعًا بسلسلة، متبوعة بعلامة ؟، بدون أي أحرف بعد علامة ؟).
احفظ ملف robots.txt عن طريق تنزيل الملف أو نسخ المحتويات إلى ملف نصي وحفظه كملف robots.txt. قم بحفظ الملف في أعلى الدلائل مستوى بالموقع. يجب وضع ملف robots.txt في جذر النطاق مع تسميته بنفس هذا الاسم، "robots.txt". ولا يكون ملف robots.txt صالحًا إذا تم وضعه في دليل فرعي، لأن برامج الزحف bots تبحث عن هذا الملف في جذر النطاق فقط. فعلى سبيل المثال، يعد http://www.example.com//robots.txt موقعًا صالحًا، ولكن http://www.example.com/mysite/robots.txt ليس كذلك.
توضح لك أداة
اختبار ملف robots.txt ما إذا كان ملف robots.txt يمنع عن غير قصد Googlebot من الزحف إلى ملف ما أو دليل ما على موقعك، أو ما إذا كان يسمح لبرنامج Googlebot بالزحف إلى ملفات ينبغي ألا تظهر على الويب. فعند إدخال نص ملف robots.txt مقترح، فإن الأداة تقرأ هذا النص بنفس الطريقة التي يقرأه بها Googlebot، كما تسرد تأثيرات الملف وأية مشكلات تم اكتشافها.
لاختبار ملف robots.txt لأحد المواقع:
- في الصفحة الرئيسية لأدوات مشرفي المواقع، انقر على الموقع الذي تريده.
- ضمن الزحف، انقر على عناوين URL المحظورة.
- وإذا لم يكن محددًا، فانقر على علامة التبويب اختبار ملف robots.txt.
- انسخ محتوى ملف robots.txt والصقه داخل المربع الأول.
- في مربع عناوين URL، أدخل الموقع المراد اختباره.
- في قائمة وكلاء المستخدم، حدد وكلاء المستخدم الذين تريدهم.
لن يتم حفظ أية تغييرات تجريها في هذه الأداة. ولحفظ أية تغييرات، يتعين عليك نسخ المحتويات ولصقها في ملف robots.txt.
وتقدم هذه الأداة النتائج لوكلاء مستخدم Google فقط (مثل Googlebot). وربما لا تفسر بعض برامج التتبع الأخرى ملف robots.txt بالطريقة ذاتها. على سبيل المثال، يسمح Googlebot بتعريف أشمل للمعيار بروتوكول robots.txt. حيث يتعرف على أوامر Allow:، وكذلك بعض تطابقات الأنماط. لذا، فبينما تبين الأداة أنها تمكنت من التعرف على السطور التي تشتمل على هذه الامتدادات، ضع في حسابك أن هذا ينطبق على Googlebot فقط، وليس بالضرورة على برامج التتبع الأخرى التي قد تزحف إلى موقعك.