ما هي أنواع البيانات المختلفة التي يمكن تنزيلها من الإنترنت؟

ما هي أنواع البيانات المختلفة التي يمكن تنزيلها من الإنترنت؟.

مصادر البيانات

تزداد ثراء وتنوع مصادر المعلومات الرقمية. الإنترنت (والويب على وجه الخصوص) هو مورد معروف ومهم للغاية. المكتبات الرقمية ومختلف المبادرات المماثلة والحديثة (Gutenberg و Wikipedia) هي أيضًا مصادر غنية جدًا للمعلومات.

إنترنت

وُلد الإنترنت عام 1969 تحت اسم ARPANET: كان مشروعًا عسكريًا أمريكيًا. خلال الثمانينيات ، انتشر الإنترنت عبر الجامعات واتخذ ببطء الشكل الذي نعرفه اليوم. ومع ذلك ، لم يكن الويب واحدًا منهم بعد. لم يكن الأمر كذلك حتى تيم بيرنرز لي الذي اقترح الويب في مارس 1989: كان التبني سريعًا ، وبحلول عام 1994 ، أصبح اختراعه معروفًا في جميع أنحاء العالم.

يتميز الويب (انظر Nie، 2004) بحجمه الضخم وديناميكيته (تتغير شبكة الويب دائمًا) وبياناتها غير المتجانسة (الوسائط المتعددة ، متعددة اللغات ، الموزعة). يعد البحث عن المعلومات على الويب أمرًا صعبًا بشكل خاص: لا يمكننا تصفح الويب بالكامل. المشكلة البسيطة في معرفة حجمها صعبة. حتى بافتراض أنه يمكن للمرء أن يجد جميع المستندات التي تتناول موضوعًا معينًا على الويب ، فإن جودة المعلومات متغيرة تمامًا ؛ يجب أن تكون قادرًا على فرز المعلومات أو حتى تصفيتها. تعد وفرة المستندات غير النصية (الصور والأصوات ومقاطع الفيديو وما إلى ذلك) مشكلة لأن الطرق التقليدية للعثور على المعلومات تركز على المستندات النصية.

من أجل حل هذه الصعوبات جزئيًا ، اقترح مخترع الويب ، تيم بيرنرز لي ، في عام 2001 تطوير الويب نحو شبكة دلالية (Carvin ، 2004) ، أي شبكة الويب التي تسمح لأجهزة الكمبيوتر بمعالجة معنى المعلومات التي يحتوي عليها. يعتمد الويب الدلالي على RDF و XML ، ولكن أيضًا على العمل الذي تم إنجازه على مدار الثلاثين عامًا الماضية في مجال الذكاء الاصطناعي (AI). يمكن للمرء أن يقول أنه إذا كانت شبكة الويب الحالية تحتوي في الغالب على معلومات غير منظمة وشبه منظمة ، فإن الهدف من الويب الدلالي هو جعل هذه المعلومات أكثر تنظيماً.

ويكيبيديا

Wikipedia (wikipedia.org) هي موسوعة مجانية على الإنترنت كتبها متطوعون بأكثر من 100 لغة مختلفة وتحتوي على ما بين مليون و 2 مليون مقال. يستقبل موقع ويكيبيديا ما يقرب من 80 مليون زيارة يوميًا لما مجموعه 2.4 مليار زيارة شهريًا. باختصار، يبدو الأمر كما لو أن واحدًا من كل ثلاثة أشخاص على الأرض يزور صفحة واحدة على الأقل من ويكيبيديا كل شهر ! على الرغم من أن الموقع تأسس في يناير 2001 ، إلا أنه يحتوي بالفعل على أكبر موسوعة في التاريخ (بعدد المقالات). وبالمقارنة ، فإن أكبر موسوعة تقليدية هيEncyclopdia Britannica، لديها 85000 مقالة فقط.
تعرض موسوعة ويكيبيديا خصائص الويب ، حيث إنها تتغير دائمًا ، ضخمة ومتعددة اللغات. دعنا نضيف أنه بما أن الموسوعة كتبها متطوعون ، يحدث أن المعلومات غير صحيحة أو حتى ذات جودة متواضعة للغاية: يجب أن نحافظ على عقل نقدي في مواجهة كل هذه المعلومات الهائلة.

عالم المدونات

المدونات هي مجموعة من “المدونات” أو “مدونات الويب”. يتم تعريف المدونة على أنها موقع ويب يحتوي على منشورات (أو “مقالات”) منظمة بطريقة متسلسلة. تتم كتابة المدونة بشكل عام بواسطة شخص واحد ، حتى لو كان هناك مدونات أو مدونات متعددة تحتوي على مشاركات كتبها مؤلفون مختلفون. العديد من الشخصيات الشهيرة لديها مدونات مثل سكوت آدمز ، مؤلف الشرائط
سحب ديلبرت، أو مايكل مور ، المخرج الشهير. وصف تيم براي ، أحد مخترعي XML ، وصول المدونات بالثورة الثانية للويب (بعد وصول Google التي شكلت الثورة الأولى): وصف هذه الثورة بأنها مرور الويب كمكتبة ، إلى الويب كتدفق للأحداث والمعلومات. نحن نعلم أن العديد من شركات الاتصالات تدرس عالم المدونات للعثور على اتجاهات جديدة.

ليست كل المدونات نصية فقط. بالإضافة إلى الاستخدام المنتظم للصور ، تستخدم العديد من المدونات التسجيلات الصوتية (المدونات الصوتية أو تدوين صوتي) أو حتى تسجيلات الفيديو (ملف مدونات الفيديو). أصبح الاستخدام المكثف للوسائط المتعددة ممكنًا من خلال التكلفة المنخفضة وسهولة استخدام المعدات الإلكترونية مثل الهواتف الذكية.

تجعل معظم المدونات محتواها متاحًا باستخدام تنسيقات XML مثل RSS و Atom. لذلك يمكنك تلقائيًا متابعة العديد من المدونات باستخدام أدوات التكامل مثل http://www.bloglines.com/ (باللغة الإنجليزية).

على سبيل المثال ، يوفر راديو راديو كندا باللغة الإنجليزية ملفًا تدوين صوتي، وهي قائمة الأغاني بتنسيق MP3 في ملف XML. يمكنك تنزيل ملف XML المعني ، واستخدام الأدوات ، وإسقاط ملفات MP3 تلقائيًا على مشغل MP3. يتم وصف كل قطعة موسيقية بإيجاز بعنوان وطولها (بالبايت) وتاريخ نشرها. يمكننا اعتبار أنه شكل من أشكال المدونة.

مصادر المعلومات: المكتبات الرقمية

المكتبة الرقمية هي صورة للمكتبة التقليدية ، أي أنها تحتوي على نصوص رقمية ، ولكن يمكنها أيضًا تقديم خدمات تدعم البحث والتعليم وحفظ الوثائق.
يمكن الوصول إلى معظم المكتبات الرقمية على الويب.
تشير التقديرات إلى أنه في تاريخ البشرية تم نشر حوالي 32 مليون كتاب وتم إنتاج حوالي نصف مليون فيلم. لتخزين كل عمل البشرية ، سيستغرق الأمر حوالي 50 تيرابايت (أو 50،000،000 جيجابايت). يمكننا قريبًا ، نظريًا ، رقمنة جميع الأعمال البشرية ووضعها في صندوق صغير. (أ

في Qubec ، توفر المكتبة الوطنية الوصول إلى العديد من المستندات الرقمية في مجموعتها الرقمية. على سبيل المثال ، يمكن للمرء استشارة الصحيفة عبر الإنترنت مينيرفا (1826-1899) أو اطلب المساعدة من الخدمات المرجعية عبر الإنترنت.

يتوفر المستند النصي الرقمي (مثل الجريدة) أولاً كصورة يمكن معالجتها بعد ذلك باستخدام برنامج التعرف على الأحرف لتحويله إلى نص. هذه
نادرا ما تكون العملية الأخيرة أوتوماتيكية بالكامل.
بعض مزايا المكتبات الرقمية هي (فاي ، 2004):

- إمكانية الوصول: يمكن أن يكون الوصول إلى المستندات مجانيًا للجميع ، في أي وقت وفي أي مكان ، دون تكاليف باهظة ؛
- البحث: يمكن تحليل الوثيقة الرقمية ومعالجتها رقميًا ، مما يجعل من الممكن إجراء عمليات البحث على الكمبيوتر ؛
- الحفاظ على النسخ الأصلية: سيتم التعامل مع النصوص الأصلية من قبل عدد أقل من الناس وبالتالي يمكن الاحتفاظ بها لفترة أطول. من ناحية أخرى ، تتطلب المكتبات الرقمية استثمارًا أوليًا كبيرًا ، لأن رقمنة المستندات عملية بطيئة ومكلفة. يكلف رقمنة كتاب ما حوالي 10 دولارات في بلد به تكاليف عمالة منخفضة (مثل الصين) وحوالي 30 دولارًا في الولايات المتحدة. [1]. لاحظ أنه عند هذا السعر ، لم يتم نسخ النصوص وتم التقاط الصور فقط.

نظرًا لأن الرقمنة هي في الأساس نسخة ، فإننا نواجه مشاكل تتعلق بحقوق النشر: ولهذا السبب غالبًا ما نقوم أولاً برقمنة الأعمال القديمة الخالية من حقوق الطبع والنشر. كاستثناء ، تتيح لك خدمة الطباعة من Google الوصول إلى مقتطفات من الكتب الحديثة جدًا ، ولكن لن تتمكن إلا من الوصول إلى جزء صغير جدًا من الكتاب في معظم الحالات.

غالبًا ما تهتم المكتبات الرقمية بضمان إمكانية تحديد مصدر النص الإلكتروني ، وبالتالي فهي تستخدم بنوك معلومات شبه مهيكلة غالبًا ما تستخدم XML. [2].

المكتبات الرقمية: مكتبة ABU

ABU ، المكتبة العالمية ، هو مشروع رقمنة الأدب باللغة الفرنسية من المعهد الوطني للفنون والحرف. هناك 300 عمل متكامل ، رقمنة في شكل نصي. يمكنك قراءة روايات بلزاك أو هوغو أو فيرن أو زولا هناك.

المكتبات الرقمية: مشروع جوتنبرج

مشروع جوتنبرج عبارة عن مجموعة من 16000 كتاب رقمي في تنسيق نصي يرجع تاريخها إلى عام 1971. معظم الكتب في المجال العام ومتاحة مجانًا على الويب. مثل ويكيبيديا ، فإن المشروع مدعوم بالكامل من قبل المتطوعين: إحدى المهام الصعبة هي التدقيق اللغوي وتصحيح النصوص الممسوحة ضوئيًا ، لأن برنامج التعرف على الأحرف بعيد كل البعد عن الكمال ، على الرغم من التقدم الهائل الذي تم إحرازه في العقود الماضية. معظم الكتب باللغة الإنجليزية ، لكن عددًا منها بلغات أخرى ، مثل الفرنسية.

المكتبات الرقمية: الوسائط المتعددة

بالإضافة إلى النصوص ، تصبح المكتبات الرقمية مستودعات للوثائق الصوتية والمرئية. على سبيل المثال ، Librivox هو دليل للكتب التي تمت قراءتها وتسجيلها بتنسيقات MP3 و Ogg. تتضمن المجموعة الرقمية للمكتبة الوطنية دو كوبيك بطاقات بريدية ومطبوعات رقمية ، بالإضافة إلى نسخ رقمية من المجلة الحياة المزهرة أو الصحيفة مينيرفا. وبالتالي ، وبعيدًا عن توفير النص فقط ، تزودنا المكتبات الرقمية أيضًا بالصوت والصورة.

><strong>صفحة غلاف مجلة “Vie en rose” (مجلة نسوية)</strong></p>
<p><strong>المجسات</strong></p>
<p>المستشعرات هي (غالبًا إلكترونية) أجهزة تقيس تلقائيًا قدرًا معينًا من العوامل ويمكنها نقلها ، غالبًا لاسلكيًا ، عبر مسافة.  يمكن اعتبارها تكيفًا مع حواس الإنسان.  غالبًا ما يستخدم معيار IEEE 802.11 لنقل البيانات من أجهزة الاستشعار.</p>
<p>يمكن لأجهزة الاستشعار قياس كميات متنوعة:</p>
<p><img decoding= فرق الجهد ، التيار ، المقاومة الإلكترونية ، إلخ. ؛
- المجال المغناطيسي
- الضغط الجوي؛
- سرعة التدفق
- السرعة والتسارع والموقف ؛
- الكميات الكيميائية (الأكسجين ، الأس الهيدروجيني ، إلخ) ؛
- لمعان.
- الإشعاع
- القرب.
- لمعان الأشعة تحت الحمراء.
- الصوت ؛
- الرائحة ؛
- إرشاد؛
- المستويات الهرمونية
- المجال الكهربائي للقلب (مخطط القلب الكهربائي).

البيانات الواردة من أجهزة الاستشعار غير منظمة.

نظرًا لانخفاض تكلفة المستشعرات بسرعة كبيرة ، واستمرار تعقيدها في الزيادة ، يعتقد بعض المؤلفين ، مثل Gray و Szalay ، أننا نعيش في وقت تزداد فيه كمية البيانات بشكل كبير متسارع. دعونا نضيف أن الإنترنت يجعل هذه الكميات الكبيرة من المعلومات متاحة لعدد أكبر من الناس أكثر من أي وقت مضى.

فيما يلي بعض الأمثلة على البيانات من أجهزة الاستشعار التي يمكن الوصول إليها على الويب:

- بيانات عن الوقت بين ضربات القلب.
- الموقع الجغرافي للحيتان التي استولت عليها الأقمار الصناعية ؛
- مختلف البيانات الطبية الحيوية بما في ذلك مخطط كهربية القلب.
- سلاسل زمنية مختلفة (جامعة كاليفورنيا في ايرفين).

البيانات المالية

توفر مواقع مثل Yahoo Finance أو Google Finance وصولاً سهلاً بشكل متزايد إلى كميات كبيرة من المعلومات حول تطور أسعار سوق الأسهم. يمكن تنزيل المعلومات ومعالجتها بسهولة باستخدام برامج معقدة. هذه معلومات غير منظمة بشكل أساسي.


[1] مسح هذا الكتاب !، نيويورك تايمز، 14 …

هل كان المقال مفيداً؟شاركه مع أصدقائك ولا تنسى لايك والتعليق


Comments

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *