الويب الخفي (اللامرئي) Invisible Web - الدكتور طلال ناظم الزهيري

الثلاثاء، 14 نوفمبر 2017

الويب الخفي (اللامرئي) Invisible Web



الدكتور طلال ناظم الزهيري
استاذ المعلومات في الجامعة المستنصرية
لفهم مصطلح الويب الخفي Invisible Web علينا أولا أن نفهم آلية عمل محركات البحث بوصفها الأدوات المستخدمة من قبل مستخدمي شبكة الانترنت، للبحث عن المعلومات واستدعائها حسب المطالب البحثية للمستفيدين وعرضها للانتقاء منها. وعلى الرغم من أن آلية عمل محركات البحث قد أصبحت مفهومه خاصة بالنسبة للمتخصصين في مجال المعلومات!!، إلا إني أجد من الضروري هنا أن أتطرق باختصار لهذه الآلية حتى ندرك تماما معنى الويب الخفي. إذ يتكون محرك البحث من ثلاث برامج رئيسية، هي ما يعرف بالعناكب Spiders  أو الزواحف Crawlers .، والتي تكون مسئولة عن الزحف ومسح محتويات المواقع والصفحات الموجودة على الويب والتقاط الكلمات المفتاحية منها، ومن ثم تحويلها إلى برنامج الفهرس Index، وهو المسئول عن تنظيم هذه الكلمات والعبارات وخزنها في قاعدة البيانات مع تحقيق الرابط مع مكان وجودها. وأخيرا برنامج محرك البحثSearch Engine  الذي يعمل على تحقيق التطابق بين العبارات والمصطلحات التي يكتبها المستخدم في مربع النص مع تلك الموجودة في قاعدة بيانات الفهرس. ليتم استرجاعها.
  والسؤال هنا. هل نتمكن عادة من الوصول إلى المعلومات التي نبحث عنها بشكل كامل بمجرد إدراج الكلمات المفتاحية المطلوبة.؟ الجواب لا!. إننا نحصل فقط على المعلومات التي تطابقت مع المصطلحات البحثية، والتي كان لها وجود مادي في قاعدة بيانات الفهرس الخاصة بمحرك البحث الذي نستخدمه. وهنا نطرح سؤال أخر.  هل يعني أن هناك معلومات على الويب لا يوجد لها وجود مادي في فهارس محركات البحث.؟ ولماذا.؟ الجواب على الشق الأول نعم هناك الكثير من المعلومات التي يكون موجودة على الويب، لكنها غير موجودة في الفهارس. والسبب يقربنا من فهم مصطلح الويب الخفي قليلا. افترض انك نشرت على مدونتك الشخصية مقال حول تطبيقات تكنولوجيا المعلومات في الجامعات العراقية على سبيل المثال. وجئت في اليوم الثاني لتبحث عن هذا الموضوع من خلال محرك البحث، عندها قد تجد مقالات كثيرة عن هذا الموضوع ... لكنك لن تجد المقال الذي كتبته. بالتأكيد ستذهب إلى المدونة بشكل مباشر للتأكد أن المقال منشور فيها. أطمئنك إلى انك ستجد المقال موجود في مدونتك الشخصية. لكنه مع هذا لم يسترجع من خلال محرك البحث. الآن اقتربنا أكثر من المفهوم. فإذا كان هناك وجود مادي حقيقي لمقال على المدونة لكنه لا يظهر لنا من خلال البحث في محركات البحث، فهذا يعني أن المقال مخفي. حسننا جرب البحث بعد مرور عشرة أيام أكثر أو اقل، ستلاحظ أن المقال بدأ يظهر عند البحث عن الموضوع. السؤال هنا لماذا لم نتمكن من الوصول المباشر إلى المقال في الأيام الأولى لنشره من خلال محرك البحث، ثم أصبح بالإمكان الوصول إليه لاحقا.؟ الجواب ببساطة هو أن محتوى المقال لم يتشرف بزيارة العناكب ولم يتم تحويل كلماته إلى الفهرس وبالتالي لم يتمكن برنامج المحرك من تحقيق التطابق مع رابط المدونة لاسترجاعه. هذا يعني إننا لا نستطيع الوصول إلى كافة المعلومات الموجودة على شبكة الانترنت ما لم يتم تحويلها إلى فهارس محركات البحث بواسطة العناكب. على هذا الأساس يمكن تصنيف الويب إلى قسمين الأول الويب المرئي والثاني خفي. وقد تستنج من المثال الذي قدمته إليك بالقول، لا مشكلة إذ كان الفارق بين الويب المرئي والويب الخفي هو عامل الوقت. طالما أن الخفي سيصبح بعد مرور مدة قليلة مرئيا. هذا ما أتمناه أنا أيضا. إلا أن هذا النوع من الإخفاء لم يكن مقصودا، بل ناتج على صعوبة تقنية قد تختلف من محرك بحث إلى أخر أو من موقع إلى أخر. حسب الوقت الذي تحتاجه العناكب للمرور على الصفحات وتكشيف محتواها. عليه لا تفسر ما قلته سابقا على انه الويب الخفي. لأنني قلت من البداية أن المثال الهدف منه توضيح مفهوم الخفي ليس إلا. مع هذا لن نبتعد كثيرا إذا ما قلنا أن الويب الخفي قد يكون له وجود بسبب تدخل بشري أو تقني. لنبدأ بالتقني على سبيل المثال، حتى عام 2000 لم يكن بالإمكان الوصول إلى الصفحات الموجودة على الانترنت ما لم تكن بصيغة html ، وهذا يعني أن الصفحات المكتوبة بصيغ PDF, Word, Excel, PowerPoint لم يكن بالإمكان الوصول إلى محتواها، حتى طورت محركات البحث تقنية التحويل من هذه الصيغ وغيرها إلى html. تصور حجم المعلومات التي أصبحت متاحة بسبب ظهور هذه التقنية، من جانب أخر تصور حجم المعلومات التي كان يمكن أن تكون مخفية لولا ظهور هذه التقنية. أما التدخل البشري فهو أن تعمل الجهة المسؤولة عن الموقع أو الصفحات على حجب المعلومات أما لأسباب أمنية أو لأسباب مادية، على سبيل المثال قد تحتوي بعض المواقع على قواعد بيانات ضخمة بمقالات الدوريات أو الكتب أو الرسائل الجامعية، وبالنصوص الكاملة لكنها تمنع العناكب من الوصول المباشر إلى محتوى هذه المصادر وتسمح فقط بالوصول إلى عناوين أو ملخصاتها. ما لم يتم دفع مبالغ مالية من قبل المستخدم للاشتراك بها ومن ثم الحصول على المعلومات كاملة بعد التحقق من تسجيل الدخول. وإذا ما تصورنا حجم المعلومات في هذه القواعد آخذين بنظر الاعتبار أن هناك الآلاف من هذه القواعد سنستنتج حجم المعلومات المخفية والتي لا يمكن الوصول المباشر لها من خلال محركات البحث العامة. مع العلم أن محركات البحث الخاصة بقواعد البيانات تمكننا من الوصول إلى معلومات المصادر دون نصوصها الكاملة. على هذا الأساس طور محرك البحث Google (الباحث العلمي) وهو محرك فرعي يهدف إلى تحقيق وصول إلى محتوى قواعد البيانات دون أن يتم التجاوز على حقوق الملكية بعرض النصوص الكاملة. أي أن التسهيل هنا هو أن تعرف بوجود الشيء وعليك أن تفكر لا حقا كيف تحصل عليه... واليوم ومع ظهور شبكات التواصل الاجتماعي التي استقطبت اهتمام بلايين البشر من خلال التواجد عليها ومشاركة المعلومات والحوارات والنقاشات والتي بدورها اطلقت كم هائل من المعلومات الى مستودعات خوادم الويب. لكن قد تتسائل لماذا لا تجد ما تنشره من معلومات على صفحتك الشخصية من خلال البحث باستخدام محركات البحث. ؟ سواء كنت مستخدماً الفيس بوك ام تويتر او اي شبكة اخرى. الجواب ببساطة ان هناك ثلاث انواع من الصفحات الاول هي صفحتك الشخصية التي تتحكم بادارتها شخصيا وانت المخول الوحيد في الدخول والنشر باسمك الصريح او الرمزي. هذا النوع من الصفحات فيه نوعين من المعلومات الاولى هي بياناتك الشخصية و هي معلومات ممكن ان تتحكم في طريقة عرضها على محركات البحث او حجبها من خلال اعدادات الخصوصية على صفحتك الشخصية. اما باقي المشاركات فلا يتم تكشيف محتواه من قبل محركات البحث اي ينطبق عليه وصف خفي وتبقى متاحة للظهور امام جمهور الشبكة او من اخترت منهم . والنوع الثاني هو صفحات عامة لكنها مغلقة لعدد محدود من الاعضاء الذين يسمح لهم مدير او مدراء الصفحة بالتواجد والنشر والتعليق والمشاركة وفقا لاعتبارات خاصة يحددها منشأ الصفحة. هذه ايضا تقع في دائرة الويب الخفي. ويمكن للاعضاء فقط مشاهدة محتوى الصفحة بعد اكمال اجراءات التسجيل. اما الصفحات العامة او ما تعرف بالمجموعات فيمكن ان تنشر فيها موضوعات تظهر في محركات البحث لكن لا تستطيع قرائتها الا بعد تسجيل دخولك على الشبكة.
نخلص الى القول ان محركات البحث الشهيرة مثل google و Bing لا تفهرس الا بحدود 20% فقط من محتوى الانترنت وتختفي 80% في دهاليز الانترنت التي قد تكون ضمن مستوى اللامرئي او المخفي و العميق Deep  و المظلم Dark. ولنا وقفه مع النوعين الاخيرين. وتجدر الاشارة الى اهمية التميز بين الانترنت كمفهوم شامل وعام وبين مصطلح الويب الذي يستخدم برتوكول [http] في تناقل المعلومات مهم ايضا. لان هناك معلومات لا يتم تناقلها الا من خلال برتوكولات خاصة مثل رسائل البريد الاكتروني على سبيل المثال. نختم بالقول ان (الويب الخفي يمثل كل المواقع والصفحات والمعلومات التي لا يمكن الوصول اليها بشكل مباشر من خلال محركات البحث بالرغم من وجودها المادي على الانترنت. ).

هناك تعليقان (2):

  1. مااجمل اسلوبك يادكتور في ايصال المعلومه بشكل بسيط ربي يحفظك

    ردحذف
  2. معلومات قيمة شكرًا جزيلًا دكتورنا
    ننتظر التكملة

    ردحذف