اهمية الجبر الخطي في محركات البحث

من ويكي الهندسة المعلوماتية
اذهب إلى: تصفح، ابحث

مقدمة

تقريبا اليوم جميع محركات البحث عبر الانترنت تستخدم محلل الروابط link analysis لتحسين نتائج البحث .ان بنية الروابط الفائقة hyperlink في الويب تأتي اصلا من نظرية المصفوفات matrix theory . ان تحليل الروابط وبمساعدة اسس الجبر الخطي ساعدا بتوليد ثورة جديدة على الويب ,ويمكن القول ان تاريخ محركات البحث قبل العام 1998 وبعده مختلفان كليا بحيث نجد ان عمليات البحث اختلفت بشكل جذري واصبحت نتائج البحث اكثر دقة بشكل ملحوظ من ذي قبل .


Hits و PageRank هما خوارزميتين من اشهر خوارزميات تحليل الروابط ,كلاهما تم تطويره بالعام 1998 وكلاهما قاما بتحسين نتائج محركات البحث بشكل كبير .لنعرف اهمية تحليل الروابط كل ماعليك هو مقارنة نتائج البحث قبل وبعد العام 1998 على الانترنت في محركات البحث الشهيرة كياهو والتافيستا والذاويب لتجد الفرق الهائل بحيث كان قديما يعتمد على البحث المحرفي اكثر من البحث الدلالي .


بسبب العدد الهائل لصفحات الويب على الانترنت فان اي استدلال query لمحرك بحث (يعرف الاستدلال بانه طلب عملية بحث من موقع محرك بحث وبمعنى اخر عندما ندخل كلمة ضمن محرك البحث ونضغط بحث ) غالبا ما ينتج قائمة جدا طويلة من الصفحات المتشابهة ’ببعض الاحيان آلاف الصفحات لذا وجب على المستخم حينها ان يصنف بشكل حذر من خلال القائمة ليجد اكثر الصفحات المتشابهة بشكل يدوي .

كان ترتيب عرض الصفحات لايساعد بشكل كبير خلال عملية البحث بسبب ان عملية السبام "الاغراق بالدعايات " كانت سهلة جدا في ذلك الوقت .وكانت اللعبة التي قام بها صناع المواقع لانتاج تقييمات عالية, بحيث قام المصممون باستعمال مكتبات meta-tags مدعين بان صفحاتهم تستعمل مصطلحات يتم البحث عنها لاتوجد ضمن الصفحة . meta tages اصبحت عديمة القيمة لمحركات البحث .السبامرز قامو بوضع بعض الحيل لخداع محركات البحث كأن يضعو نصوص ضمن الصفحة الرئيسية بلون ابيض لاتظهر للقارىء بحيث يعتقد محرك البحث ان هذه الصفحة تحوي المطلوب ولكن كل ماتحويه هو دعايات والعديد من الامور الاخرى لخداع محركات البحث .

خوارزمية hit

ان خوارزمية هيت هي خوارزمية تحليل روابط طورت من قبل جون كلينبيرغ من جامعة كورينل خلال دراساته في IBM Almaden هادفا بذلك على التركيز ان الخوارزمية السابقة مبنية على نماذج كلبينبيرغ الملاحظة بين صفحات الويب . بعض الصفحات تخدم ك hubs او بوابات للصفحات , "مثال على ذلك صفحة تحوي العديد من الروابط الخارجية ".صفحات اخرى هي مستندات على مواضيع لانها تملك العديد من الروابط الداخلية . كلبينبيرغ لاحظ ان الهب الجيد يبدو ليشير الى مستند جيد .لذا قرر ليعطي كل صفحة i كلا من معدل توزيع hub score hi و معدل تقييم للمستند authority score ai .في الحقيقة من اجل كل صفحة i قام جون بتعريف معدل توزيع بتكرار k hi(k) و معدل وثوقية مستند ai(k) كالتالي : ai(k)= sum hj(k-1) j:eji belongs to E

hi(k)= sum aj(k) j:eij belongs to E for k=1,2,3,4,5.....

حيث تمثل eij hyperlink روابط فائقة من الصفحة i الى الصفحة j و E هي مجموعة من الروابط الفائقة hyperlink . كي نحسب نقاط الصفحة بدا جون بنقاط uniform scores لجميع الصفحات اي hi(1)=1/n و ai(1)=1/n بحيث الرقم n يدل على عدد الصفحات في المجموعة المجاورة لقائمة الطلبات .تحتوي القائمة المجاورة جميع الصفحات في قائمة الطلبات بالاضافة الى الى جميع الصفحات التي تشير الى او من صفحات الطلبات .بالاعتماد على الطلب فان قائمة الجوار يمكن ان تحوي فقط 100 صفحة او 100 الف صفحة (ان مجموعة الجوار تسمح بانشاء ويب دلالي )ان قيم الموزع hub والوثوقية authority scores تصل الى مرحلة تتقارب فيها القيم لتصبح ثابتة .باستعمال الجبر الخطر يمكننا استبدال مجموع المعادلات بمعادلات مصفوفية . ليكن h وa هما شعاع عمود يحمل قيم الموزع والوثوقية hub score & authority score .ليكن L هو المصفوفة المجاورة تمثل مجموعة الجوار .ويكون لدينا Lij=1 اذا كانت الصفحة i ترتبط بالصفحة j وياخذ 0 غير ذلك هذه التعريفات تبين ذلك .


المقالة مازالت بحاجة الى الاكمال والتدقيق يرجى الانتظار .