الفهرسة هي عملية فحص الملفات الموجودة على مورد الإنترنت بواسطة روبوت البحث. يتم تنفيذ هذا الإجراء حتى يكون الموقع متاحًا في نتائج البحث لاستعلامات مختلفة في محرك البحث. من بين أكبر محركات البحث اليوم Yandex ، التي تجري هذا الفحص بطريقتها الخاصة.
تعليمات
الخطوة 1
تتم فهرسة موقع الإنترنت بواسطة برامج آلية خاصة - روبوتات البحث ، والتي تتعقب تلقائيًا ظهور المواقع الجديدة على شبكة الويب العالمية ، وتقوم باستمرار بمسح صفحات الإنترنت الموجودة على الإنترنت والملفات والروابط الخاصة بها على كل مورد.
الخطوة 2
للمسح ، ينتقل الروبوت إلى الدليل حيث يوجد المورد على خادم معين. عند اختيار موقع جديد ، يسترشد الروبوت بمدى توفره. على سبيل المثال ، هناك رأي مفاده أن Yandex يقوم أولاً بمسح المواقع التي تم إنشاؤها في مجال اللغة الروسية وبالروسية - ru أو rf أو su أو ua ، ثم ينتقل بعد ذلك فقط إلى مناطق أخرى.
الخطوه 3
ينتقل الروبوت إلى الموقع ويفحص هيكله ، ويبحث أولاً عن الملفات التي تشير إلى مزيد من البحث. على سبيل المثال ، يتم فحص الموقع بحثًا عن ملف Sitemap.xml أو robots.txt. يمكن استخدام هذه الملفات لضبط سلوك روبوت البحث عند الفحص. باستخدام خريطة الموقع (sitemap.xml) ، يحصل الروبوت على فكرة أكثر دقة عن بنية المورد. يستخدم مشرف الموقع ملف robots.txt لتحديد الملفات التي لا يرغب في عرضها في نتائج البحث. على سبيل المثال ، قد تكون معلومات شخصية أو بيانات أخرى غير مرغوب فيها.
الخطوة 4
بعد مسح هذين المستندين ضوئيًا وتلقي التعليمات اللازمة ، يبدأ الروبوت في تحليل كود HTML ومعالجة العلامات المستلمة. بشكل افتراضي ، في حالة عدم وجود ملف robots.txt ، يبدأ محرك البحث في معالجة جميع المستندات المخزنة على الخادم.
الخطوة الخامسة
من خلال النقر على الروابط في المستندات ، يتلقى الروبوت أيضًا معلومات حول المواقع الأخرى الموجودة في قائمة الانتظار للمسح الضوئي بعد هذا المورد. يتم حفظ الملفات الممسوحة ضوئيًا على الموقع كنسخة نصية وبنية على الخوادم في مراكز بيانات Yandex.
الخطوة 6
يتم أيضًا تحديد الحاجة إلى إعادة المسح تلقائيًا بواسطة الروبوتات. يقارن البرنامج نتيجة الفحص الحالية بالإصدار المحدث من الموقع عندما يمر عبر الفهرسة مرة أخرى. في حالة اختلاف البيانات التي يتلقاها البرنامج ، يتم تحديث نسخة الموقع على خادم Yandex أيضًا.