كيف يمكن استعادة وثيقة مؤرشفة؟

كيف يمكن استعادة وثيقة مؤرشفة؟.

باختصار: سوف تستكشف طرقًا للعثور على المعلومات التاريخية أو “المفقودة” واستعادتها على مواقع الويب لتكون بمثابة دليل على وجود شيء ما على الإنترنت ، ولأرشفة نسخك الخاصة من صفحات الويب والاحتفاظ بها للرجوع إليها في المستقبل.

في بعض الأحيان عندما تريد التحقق من المعلومات عبر الإنترنت ، ينتهي بك الأمر باتباع عميل متوقع يؤدي إلى روابط معطلة أو مواقع ويب لم تعد متوفرة.

في أوقات أخرى ، تجد مواقع ويب تحتوي على معلومات حيوية يمكن أن تضيف قيمة كبيرة إلى قصة ما ، لكنك لا تدرك قيمتها إلا في وقت لاحق.

عند زيارة موقع الويب هذا لتوثيقه ، قد تجد أنه لم يعد موجودًا ، أو تمت إزالة صفحة الويب التي تتذكرها ، أو لم يعد الوصول إلى المعلومات التي تحتاجها متاحًا وتم استبدالها بمحتوى جديد.

من المحتمل أنك ستواجه كل هذه التحديات في مرحلة ما أثناء تحقيقاتك.

ماذا لو كانت هناك طريقة للعودة بالزمن إلى الوراء والحصول على نسخة من صفحة الويب هذه ، أو حتى جزء منها ، قبل تغييرها أو إزالتها؟

لحسن الحظ ، هناك طرق سهلة لاستعادة المحتوى القديم والصفحات المحذوفة حتى يظل بإمكانك الرجوع إليها في الاستبيان الخاص بك. يمكنك أيضًا حفظ الصفحات التي يمكن الوصول إليها حاليًا بحيث يمكنك استخدامها لاحقًا ، حتى إذا تم تغييرها أو حذفها في غضون ذلك.

هناك العديد من هذه الخدمات التي تقوم تلقائيًا بأرشفة الإصدارات القديمة من مواقع الويب. إلى جانب المحتوى ، تحتوي هذه المحفوظات الرقمية غالبًا على معلومات يمكن أن تساعدك في تحديد البيانات المهمة الأخرى مثل مالك موقع الويب والأسماء المفيدة وتفاصيل الاتصال والمستندات والروابط إلى مواقع أخرى. تسمح لك بعض هذه الخدمات بالمساهمة في قائمة مواقع الويب التي يتم أرشفتها عن طريق حفظ صفحات الويب يدويًا في الوقت الذي تختاره. يمكنك (والآخرين) الحصول على لقطات من هذه المواقع لاحقًا.

بالعودة إلى حالتنا أعلاه – من Facebook ، بمساعدة إحدى هذه الخدمات – فإن آلة Wayback الخاصة بأرشيف الإنترنت (تمت مناقشته بالتفصيل أدناه) – يمكننا العثور على قائمة مؤرشفة بالمشاريع السياسية التي سبق لـ Facebook عرضها في قسم “الحكومة والسياسة” في صفحة الويب الخاصة بـ “قصص النجاح” https://www.facebook.com/business / Success ، ذهب الآن. يكشف البحث عن “https://www.facebook.com/business/success/categories/government-politics” في آلة Wayback أن أمثلة “الحكومة والسياسة” هذه كانت لا تزال متوفرة على الإنترنت في عام 2017 ، كما تم حفظها في أرشيف الإنترنت هنا .

https://tunizien.net/wp-content/uploads/2022/10/Recuperation-et-Archivage-de-lInformation-Depuis-des-Sites-Web-—.pngلقطة شاشة لنسخة Wayback لصفحة ويب Facebook المحذوفة الآن في “قصص النجاح – الحكومة والسياسة”.

والأهم من ذلك ، أن بعض المحتوى القديم يمكن الوصول إليه لأن بعض الروابط القديمة من الصفحة المؤرشفة لا تزال تعمل ، لذا يمكنك قراءة تفاصيل خطط حملتهم السياسية.

النسخ المؤرشفة من مواقع الويب مثل هذه تحتفظ بمعلومات يمكن أن تكون ذات قيمة للمحققين.

السلامة اولا!

عندما توجه أرشيفًا إلى صفحة ويب تهتم بها ، فإنه يزحف إلى صفحة الويب هذه ويخزن نسخة. عندما يحدث ذلك ، تضيف صفحة الويب المؤرشفة تلقائيًا سجلًا إلى “سجل الوصول” (الذي تحتفظ به معظم مواقع الويب) يُظهر متى وبأي عناوين IP تمت زيارتها.

قد يدرك مسؤول موقع الويب اليقظ أو العملية الآلية أن جزءًا من موقعه قد تمت أرشفته بواسطة Wayback Machine.

وهذا بدوره يمكن أن يمنحهم أدلة على أن شخصًا ما يحقق في محتوى معين أو شخص ذي صلة بهم. في بعض الحالات ، قد يؤدي هذا وحده إلى تقليل تأثير التحقيق إذا كان الموضوع الذي تعمل عليه حساسًا ويحتاج إلى إبعاده عن الرأي العام لفترة من الوقت.

إلى حد أقل ، يمكن لمسؤول موقع الويب إزالة المواد المؤرشفة من Wayback Machine (إليك أحد الأسباب التي تجعل من الجيد إنشاء نسخة غير متصلة بالإنترنت من أي شيء مهم لبحثك). يمكن لهذا المسؤول أيضًا حذف أو تحرير محتوى مكافئ لم تجده بعد.

تحتفظ معظم خدمات الأرشفة أيضًا بسجلات الوصول.

موقع الويب، على سبيل المثال ، يسجل نظام تشغيل الكمبيوتر ومتصفح الويب لكل مستخدم ، بالإضافة إلى اسم مجال مزود خدمة الإنترنت لكل مستخدم (انظر موقع سياسة الخصوصية على الويب). لذلك من الجيد تنشيط شبكة افتراضية خاصة (VPN) أو استخدام متصفح Tor للعمل مع خدمات الأرشيف.

بالإضافة إلى ذلك ، تتطلب بعض الخدمات من كل مستخدم إنشاء حساب أو اختيار اسم مستخدم أو تقديم معلومات الدفع أو التحقق من عنوان بريد إلكتروني أو ربط ملف تعريف وسائط اجتماعية.

يجب أن تفكر في إنشاء مجموعة من الحسابات المنفصلة لاستخدامها مع خدمات مثل هذه لفصل عملك الاستقصائي عن هويتك الشخصية عبر الإنترنت.

في بعض الحالات ، قد ترغب في إنشاء “هوية” لمرة واحدة لتحقيق معين ، والتخلص منها بمجرد اكتمال التحقيق.

في كلتا الحالتين ، ستكون خطوتك الأولى هي إنشاء حساب بريد إلكتروني آمن نسبيًا ، والذي يمكنك القيام به بسهولة تامة على tutanota.de أو protonmail.com.

من الصعب جدًا الدفع مقابل الخدمات التجارية بطريقة غير مرتبطة بهويتك الشخصية. إذا كنت تعيش في منطقة يمكنك فيها شراء بطاقة ائتمان نقدية مدفوعة مسبقًا ، فقد يكون هذا هو خيارك الأفضل.

في الموقف المحتمل أعلاه – لاحظ مسؤول موقع الويب اهتمامًا مفاجئًا من Wayback Machine – تجدر الإشارة إلى أنه لا يمكن بالضرورة تتبع موضوع التحقيق الخاص بك إليك. إذا كانت خدمة الأرشيف جديرة بالثقة ، ولم يكن لدى أي شخص حق الوصول إلى كل من سجلات الوصول إلى موقع الويب وسجلات الوصول إلى خدمة الأرشيف ، فقد يصعب على المسؤول توصيل النقاط.

ومع ذلك ، من الأفضل اتخاذ الاحتياطات الموصى بها أعلاه بدلاً من الاعتماد على هذا الافتراض. لنفترض ، على سبيل المثال ، أن عددًا قليلاً فقط من عناوين IP تعرض الصفحة المؤرشفة في نفس اليوم الذي تمت إضافتها فيه إلى Wayback Machine. سيكون من السهل على أي شخص معرفة أنه تتم مشاهدته من موقع معين.

أي استثمار صغير للوقت ، قبل أن تبدأ التحقيق الخاص بك ، يمكن أن يساعدك في الحد من هذه الأنواع من المخاطر.

أرشفة المحتوى واسترجاعه باستخدام Wayback Machine

https://cdn.ttc.io/i/fit/1000/0/sm/0/plain/kit.exposingtheinvisible.org/il/Web-Archiving_Wayback-Machine_02-cik-ill Image.png

ال آلة Wayback هو مشروع لمنظمة غير ربحية مقره سان فرانسيسكو أرشيف الإنترنت، وهي مكتبة رقمية تم تخصيصها للحفاظ على مليارات المواقع الإلكترونية منذ عام 1996 ، كجزء من محاولة لأرشفة الإنترنت وتوفير الوصول الشامل إلى جميع المعارف. بحلول بداية عام 2020 ، كان قد أرشفة حوالي 420 مليار موقع.

https://tunizien.net/wp-content/uploads/2022/10/1666169788_643_Recuperation-et-Archivage-de-lInformation-Depuis-des-Sites-Web-—.pngآلة Wayback

آلة Wayback هي أداة أساسية للباحثين والمؤرخين والمحققين والعلماء. إنه متاح مجانًا للجمهور ويمكن أن يساعدك في الوصول إلى لقطات أرشيفية لصفحات الويب التي تم التقاطها في نقاط زمنية مختلفة.

يمكن لبرامج الزحف الآلية الخاصة بـ Wayback Machine (وتسمى أيضًا العناكب أو العناكب أو الزواحف) الوصول إلى أي موقع ويب عام تقريبًا وأرشفته. ومع ذلك ، لا تملك برامج الزحف نمطًا ثابتًا لتحديد مواقع الويب التي تزورها وعدد المرات ، حيث تخضع لقيود الموارد وتوجيهات القرار التي تؤثر على كيفية عملها.

لذلك ، قد لا تجد دائمًا نسخة مؤرشفة من يوم أو شهر أو حتى سنة معينة. بالإضافة إلى ذلك ، يمكن لمواقع الويب اختيار عدم أرشفتها بواسطة خدمات مثل Wayback Machine. من خلال نشر مجموعة من القيود في ملف نصي يسمى “robots.txt” ، يمكن لموقع ويب توجيه برامج الزحف لاستبعاد بعض أو كل محتوياته من الأرشفة أو الفهرسة. ومع ذلك ، من المحتمل أن تكون قاعدة البيانات الشاملة الخاصة بـ Wayback Machine لا غنى عنها في العديد من تحقيقاتك.

ملحوظة:

Robots.txt هو ملف موجود على موقع ويب يسرد أجزاء من الموقع يجب أو لا يجب أن تكون متاحة للوصول إليها بواسطة برامج الزحف الآلية. إذا كان موقع الويب يحتوي على ملف robots.txt ، فيمكنك عرضه عن طريق إضافة “/robots.txt” إلى المجال أو المجال الفرعي الخاص به. على سبيل المثال: https://google.com/robots.txt.

يمكن لمواقع الويب استخدام هذا الملف لمنع برامج الزحف من Wayback Machine أو محركات البحث مثل Google أو أي خدمة فهرسة أو أرشفة أخرى. هناك العديد من الأسباب التي تجعل بعض مسؤولي مواقع الويب يختارون ملفات robots.txt المقيدة: للحد من تكاليف النطاق الترددي ، لتقليل الضغط على الخوادم المحملة بشكل زائد ، لحماية العلامات التجارية للصور أو لمنع مواقع الويب غير المكتملة من الظهور في نتائج البحث ، على سبيل المثال. ومع ذلك ، في بعض الحالات ، يقومون بذلك لإخفاء المحتوى الذي يحتمل أن يكون حساسًا.

على الرغم من أن Wayback Machine لا تحترم دائمًا هذه القيود ، لا يزال هناك العديد من مواقع الويب التي ترفض روبوتاتها أرشفتها بسبب توجيهات robots.txt. إذا كنت تواجه مشكلة في استخدام Wayback Machine لعرض أو أرشفة بعض صفحات موقع الويب وليس كلها ، فيمكنك التحقق من ملف robots.txt لمعرفة ما إذا كانت أجزاء معينة من الموقع “محظورة”.

بالإضافة إلى تقديم واجهة بسيطة لاستعادة مواقع الويب المؤرشفة تلقائيًا ، يتيح لك Wayback Machine أيضًا تخزين لقطات من صفحات الويب يدويًا لضمان عدم اختفائها فجأة.

لا تقوم هذه الخدمة فقط بأرشفة صفحات الويب ذات الصلة بالتحقيق الخاص بك ، بل تتيح لك أيضًا الاستشهاد بالبحث والارتباط بالمحتوى بسهولة عندما يتكشف تحقيقك.

في حين أنه غالبًا ما يكون من الجيد حفظ نسخ HTML أو PDF لصفحات الويب المهمة على أجهزتك الخاصة لضمان وجود نسخ احتياطية متعددة ، فإن أرشفتها باستخدام Wayback Machine يمكن أن تضيف عنصرًا من الحياد والثقة إذا انتهى بك الأمر إلى مشاركة هذه الأرشيفات مع الآخرين . إنه أيضًا أكثر عملية ، بالنسبة لـ …

هل كان المقال مفيداً؟شاركه مع أصدقائك ولا تنسى لايك والتعليق


Comments

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *