محاكاة العقل البشري.. ما هي الرؤية الحاسوبية؟الباب: علوم وتكنولوجيا

نشر بتاريخ: 2024-05-31 02:22:28

فكر - المحرر الثقافي

رؤية الكمبيوتر هي أحد مجالات الذكاء الاصطناعي (AI) الذي يستخدم التعلم الآلي والشبكات العصبية لتعليم أجهزة الكمبيوتر والأنظمة كيفية استخلاص معلومات ذات معنى من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى - وتقديم توصيات أو اتخاذ إجراءات عندما يرون عيوبًا أو مشكلات. 

إذا كان الذكاء الاصطناعي يمكّن أجهزة الكمبيوتر من التفكير، فإن رؤية الكمبيوتر تمكنها من الرؤية والملاحظة والفهم.

تعمل الرؤية الحاسوبية بنفس الطريقة التي تعمل بها الرؤية البشرية، باستثناء أن البشر لديهم السبق. يتمتع البصر البشري بميزة السياق مدى الحياة لتدريبه على كيفية التمييز بين الأشياء، ومدى بعدها، وما إذا كانت تتحرك أو أن هناك خطأ ما في الصورة.

تعمل الرؤية الحاسوبية على تدريب الآلات على أداء هذه الوظائف، ولكن يجب عليها القيام بذلك في وقت أقل بكثير باستخدام الكاميرات والبيانات والخوارزميات بدلاً من شبكية العين والأعصاب البصرية والقشرة البصرية. نظرًا لأن النظام الذي تم تدريبه على فحص المنتجات أو مراقبة أصول الإنتاج يمكنه تحليل آلاف المنتجات أو العمليات في الدقيقة، وملاحظة العيوب أو المشكلات غير المحسوسة، فيمكنه تجاوز القدرات البشرية بسرعة.

تُستخدم الرؤية الحاسوبية في الصناعات التي تتراوح بين الطاقة والمرافق والتصنيع والسيارات، ويستمر السوق في النمو. ومن المتوقع أن تصل إلى 48.6 مليار دولار أمريكي بحلول عام 2022.

كيف تعمل الرؤية الحاسوبية؟

تحتاج رؤية الكمبيوتر إلى الكثير من البيانات. يقوم بإجراء تحليلات للبيانات مرارًا وتكرارًا حتى يميز الفروق ويتعرف في النهاية على الصور. على سبيل المثال، لتدريب جهاز كمبيوتر على التعرف على إطارات السيارات، يجب تغذيته بكميات كبيرة من صور الإطارات والعناصر المتعلقة بالإطارات لمعرفة الاختلافات والتعرف على الإطار، خاصة الإطار الذي لا يحتوي على عيوب.

يتم استخدام تقنيتين أساسيتين لتحقيق ذلك: نوع من التعلم الآلي يسمى التعلم العميق والشبكة العصبية التلافيفية.

يستخدم التعلم الآلي نماذج خوارزمية تمكن الكمبيوتر من تعليم نفسه حول سياق البيانات المرئية. إذا تم تغذية ما يكفي من البيانات من خلال النموذج، فسوف "ينظر" الكمبيوتر إلى البيانات ويعلم نفسه التمييز بين صورة وأخرى. تمكن الخوارزميات الآلة من التعلم بنفسها، بدلاً من أن يقوم شخص ما ببرمجتها للتعرف على الصورة.

تساعد شبكة CNN نموذج التعلم الآلي أو التعلم العميق على "النظر" عن طريق تقسيم الصور إلى وحدات بكسل يتم منحها علامات أو تسميات. ويستخدم التسميات لإجراء عمليات التلافيف (عملية رياضية على وظيفتين لإنتاج وظيفة ثالثة) ويقوم بالتنبؤات حول ما "يراه". تقوم الشبكة العصبية بتشغيل التلافيفات والتحقق من دقة تنبؤاتها في سلسلة من التكرارات حتى تبدأ التنبؤات في التحقق. ومن ثم يتم التعرف على الصور أو رؤيتها بطريقة مشابهة للإنسان.

تمامًا مثل الإنسان الذي يلتقط صورة عن بعد، تكتشف شبكة CNN أولاً الحواف الصلبة والأشكال البسيطة، ثم تملأ المعلومات أثناء تشغيل تكرارات تنبؤاتها. يتم استخدام CNN لفهم الصور الفردية. يتم استخدام الشبكة العصبية المتكررة (RNN) بطريقة مماثلة لتطبيقات الفيديو لمساعدة أجهزة الكمبيوتر على فهم كيفية ارتباط الصور في سلسلة من الإطارات ببعضها البعض.

تاريخ رؤية الكمبيوتر

يحاول العلماء والمهندسون تطوير طرق تمكن الآلات من رؤية البيانات المرئية وفهمها منذ حوالي 60 عامًا. بدأت التجارب في عام 1959 عندما أظهر علماء الفسيولوجيا العصبية للقط مجموعة من الصور، في محاولة لربط الاستجابة في دماغها. واكتشفوا أنها تستجيب أولاً للحواف أو الخطوط الصلبة وعلميًا، وهذا يعني أن معالجة الصور تبدأ بأشكال بسيطة مثل الحواف المستقيمة.

وفي الوقت نفسه تقريبًا، تم تطوير أول تقنية لمسح الصور بالكمبيوتر، مما مكن أجهزة الكمبيوتر من رقمنة الصور والحصول عليها. تم الوصول إلى معلم آخر في عام 1963 عندما تمكنت أجهزة الكمبيوتر من تحويل الصور ثنائية الأبعاد إلى أشكال ثلاثية الأبعاد. في ستينيات القرن العشرين، ظهر الذكاء الاصطناعي كمجال أكاديمي للدراسة، وكان أيضًا بمثابة بداية سعي الذكاء الاصطناعي لحل مشكلة الرؤية البشرية.

شهد عام 1974 إدخال تقنية التعرف الضوئي على الحروف (OCR)، والتي يمكنها التعرف على النص المطبوع بأي خط أو محرف. وبالمثل، يمكن للتعرف الذكي على الأحرف (ICR) فك رموز النص المكتوب بخط اليد والذي يستخدم الشبكات العصبية. منذ ذلك الحين، وجد OCR وICR طريقهما إلى معالجة المستندات والفواتير، والتعرف على لوحات المركبات، والمدفوعات عبر الهاتف المحمول، وتحويل الآلات وغيرها من التطبيقات الشائعة.

في عام 1982، أثبت عالم الأعصاب ديفيد مار أن الرؤية تعمل بشكل هرمي وقدم خوارزميات للآلات لاكتشاف الحواف والزوايا والمنحنيات والأشكال الأساسية المماثلة. وفي الوقت نفسه، طور عالم الكمبيوتر كونيهيكو فوكوشيما شبكة من الخلايا يمكنها التعرف على الأنماط. وتضمنت الشبكة، التي تسمى نيوكوجنيترون، طبقات تلافيفية في الشبكة العصبية.

بحلول عام 2000، كان تركيز الدراسة على التعرف على الأشياء؛ وبحلول عام 2001، ظهرت أول تطبيقات التعرف على الوجوه في الوقت الحقيقي. ظهر توحيد كيفية وضع علامات على مجموعات البيانات المرئية وتعليقها خلال العقد الأول من القرن الحادي والعشرين. في عام 2010، أصبحت مجموعة بيانات ImageNet متاحة. لقد احتوى على ملايين الصور ذات العلامات عبر آلاف فئات الكائنات ويوفر أساسًا لشبكات CNN ونماذج التعلم العميق المستخدمة اليوم. في عام 2012، شارك فريق من جامعة تورنتو في مسابقة التعرف على الصور لقناة CNN. النموذج، المسمى AlexNet، قلل بشكل كبير من معدل الخطأ في التعرف على الصور. وبعد هذا الاختراق، انخفضت معدلات الخطأ إلى نسبة قليلة فقط.

تطبيقات الرؤية الحاسوبية

هناك الكثير من الأبحاث التي يتم إجراؤها في مجال رؤية الكمبيوتر، لكنها لا تتوقف عند هذا الحد. توضح تطبيقات العالم الحقيقي مدى أهمية رؤية الكمبيوتر للمساعي في مجال الأعمال والترفيه والنقل والرعاية الصحية والحياة اليومية. يتمثل المحرك الرئيسي لنمو هذه التطبيقات في تدفق المعلومات المرئية التي تتدفق من الهواتف الذكية وأنظمة الأمان وكاميرات المرور وغيرها من الأجهزة ذات الأجهزة البصرية. يمكن أن تلعب هذه البيانات دورًا رئيسيًا في العمليات عبر الصناعات، ولكنها لا تُستخدم اليوم. تقوم المعلومات بإنشاء قاعدة اختبار لتدريب تطبيقات الرؤية الحاسوبية ومنصة إطلاق لها لتصبح جزءًا من مجموعة من الأنشطة البشرية:

تتيح خدمة الترجمة من Google للمستخدمين توجيه كاميرا الهاتف الذكي نحو إشارة مكتوبة بلغة أخرى والحصول على ترجمة الإشارة على الفور تقريبًا بلغتهم المفضلة.

يعتمد تطوير المركبات ذاتية القيادة على رؤية الكمبيوتر لفهم المدخلات المرئية من كاميرات السيارة وأجهزة الاستشعار الأخرى. من الضروري التعرف على السيارات الأخرى وإشارات المرور وعلامات الحارات والمشاة والدراجات وجميع المعلومات المرئية الأخرى التي تتم مواجهتها على الطريق.

تلعب رؤية الكمبيوتر أيضًا دورًا مهمًا في تطبيقات التعرف على الوجه، وهي التكنولوجيا التي تمكن أجهزة الكمبيوتر من مطابقة صور وجوه الأشخاص مع هوياتهم. تكتشف خوارزميات الرؤية الحاسوبية ملامح الوجه في الصور وتقارنها بقواعد بيانات ملفات تعريف الوجه. تستخدم أجهزة المستهلك التعرف على الوجه للتحقق من هويات أصحابها. تستخدم تطبيقات الوسائط الاجتماعية التعرف على الوجه لاكتشاف المستخدمين ووضع علامات عليهم. تعتمد وكالات إنفاذ القانون أيضًا على تقنية التعرف على الوجه للتعرف على المجرمين في مقاطع الفيديو.

تلعب رؤية الكمبيوتر أيضًا دورًا مهمًا في الواقع المعزز والمختلط، وهي التكنولوجيا التي تمكن أجهزة الحوسبة مثل الهواتف الذكية والأجهزة اللوحية والنظارات الذكية من تراكب وتضمين الكائنات الافتراضية في صور العالم الحقيقي. باستخدام رؤية الكمبيوتر، تكتشف معدات الواقع المعزز الأشياء في العالم الحقيقي من أجل تحديد المواقع على شاشة الجهاز لوضع كائن افتراضي. على سبيل المثال، يمكن لخوارزميات الرؤية الحاسوبية أن تساعد تطبيقات الواقع المعزز في اكتشاف المستويات مثل أجهزة الكمبيوتر اللوحية والجدران والأرضيات، وهو جزء مهم جدًا من تحديد العمق والأبعاد ووضع الأشياء الافتراضية في العالم المادي.

لقد كانت الرؤية الحاسوبية أيضًا جزءًا مهمًا من التقدم في مجال التكنولوجيا الصحية. يمكن أن تساعد خوارزميات الرؤية الحاسوبية في أتمتة المهام مثل اكتشاف الشامات السرطانية في صور الجلد أو العثور على الأعراض في الأشعة السينية والتصوير بالرنين المغناطيسي.

أمثلة على رؤية الكمبيوتر

لا تمتلك العديد من المنظمات الموارد اللازمة لتمويل مختبرات الرؤية الحاسوبية وإنشاء نماذج التعلم العميق والشبكات العصبية. وقد تفتقر أيضًا إلى القدرة الحاسوبية اللازمة لمعالجة مجموعات ضخمة من البيانات المرئية. تساعد شركات مثل IBM من خلال تقديم خدمات تطوير برامج رؤية الكمبيوتر. توفر هذه الخدمات نماذج تعليمية معدة مسبقًا ومتوفرة من السحابة، كما تعمل أيضًا على تسهيل الطلب على موارد الحوسبة. يتصل المستخدمون بالخدمات من خلال واجهة برمجة التطبيقات (API) ويستخدمونها لتطوير تطبيقات رؤية الكمبيوتر.

قدمت شركة IBM أيضًا نظامًا أساسيًا للرؤية الحاسوبية يعالج كلاً من الاهتمامات المتعلقة بالموارد التنموية والحاسوبية. يشتمل على أدوات تمكن خبراء الموضوع من تسمية نماذج رؤية التعلم العميق وتدريبها ونشرها - بدون الحاجة إلى البرمجة أو خبرة التعلم العميق. يمكن نشر نماذج الرؤية في مراكز البيانات المحلية والأجهزة السحابية.

في حين أنه أصبح من الأسهل الحصول على الموارد اللازمة لتطوير تطبيقات الرؤية الحاسوبية، فإن السؤال المهم الذي يجب الإجابة عليه مبكرًا هو: ما الذي ستفعله هذه التطبيقات بالضبط؟ إن فهم وتحديد مهام رؤية الكمبيوتر المحددة يمكن أن يؤدي إلى التركيز على المشاريع والتطبيقات والتحقق من صحتها وتسهيل البدء.

فيما يلي بعض الأمثلة على مهام الرؤية الحاسوبية المحددة:

تصنيف الصور

تصنيف الصور هو أول تقنية رؤية حاسوبية يتم التعامل معها عن طريق تعلّم الآلة. يرى الصورة ويمكنه تصنيفها (كلب، تفاحة، وجه شخص). وبشكل أكثر دقة، فهو قادر على التنبؤ بدقة بأن صورة معينة تنتمي إلى فئة معينة. على سبيل المثال، قد ترغب إحدى شركات التواصل الاجتماعي في استخدامها لتحديد وفصل الصور غير المرغوب فيها التي تم تحميلها من قبل المستخدمين تلقائيًا.

يمكن أن يستخدم اكتشاف الكائنات تصنيف الصور لتحديد فئة معينة من الصور ثم اكتشاف مظهرها وجدولته في صورة أو مقطع فيديو. تشمل الأمثلة اكتشاف الأضرار في خط التجميع أو تحديد الآلات التي تحتاج إلى صيانة.

تتبع الكائنات أو تتبع كائن بمجرد اكتشافه. غالبًا ما يتم تنفيذ هذه المهمة باستخدام الصور الملتقطة بشكل متتابع أو عبر خلاصات الفيديو في الوقت الفعلي. على سبيل المثال، لا تحتاج المركبات ذاتية القيادة إلى تصنيف واكتشاف الأشياء مثل المشاة والسيارات الأخرى والبنية التحتية للطرق فحسب، بل تحتاج إلى تتبعها أثناء الحركة لتجنب الاصطدامات والالتزام بقوانين المرور.

تستخدم عملية استرجاع الصور المستندة إلى المحتوى رؤية الكمبيوتر لتصفح الصور والبحث عنها واسترجاعها من مخازن البيانات الكبيرة، استنادًا إلى محتوى الصور بدلاً من علامات البيانات الوصفية المرتبطة بها. يمكن أن تتضمن هذه المهمة تعليقًا توضيحيًا تلقائيًا للصورة يحل محل وضع العلامات اليدوي على الصور. يمكن استخدام هذه المهام لأنظمة إدارة الأصول الرقمية ويمكن أن تزيد من دقة البحث والاسترجاع.

ثورة التعلم العميق

يعد فحص الخوارزميات التي تعتمد عليها تكنولوجيا رؤية الكمبيوتر الحديثة أمرًا ضروريًا لفهم تطورها. التعلم العميق هو نوع من التعلم الآلي الذي تستخدمه الرؤية الحاسوبية الحديثة للحصول على رؤى قائمة على البيانات.

عندما يتعلق الأمر برؤية الكمبيوتر، فإن التعلم العميق هو الحل الأمثل. يتم استخدام خوارزمية تعرف باسم الشبكة العصبية. يتم استخراج الأنماط في البيانات باستخدام الشبكات العصبية. تعتمد الخوارزميات على معرفتنا الحالية ببنية الدماغ وعمله، وتحديدًا الروابط بين الخلايا العصبية داخل القشرة الدماغية.

الإدراك الحسي، وهو نموذج رياضي للخلية العصبية البيولوجية، هو الوحدة الأساسية للشبكة العصبية. من الممكن أن يكون هناك طبقات عديدة من الإدراك الحسي المرتبط، تشبه إلى حد كبير طبقات الخلايا العصبية في القشرة الدماغية البيولوجية. عندما يتم تغذية البيانات الأولية في الشبكة المولدة بالإدراك الحسي، فإنها تتحول تدريجيًا إلى تنبؤات.

كم من الوقت يستغرق فك تشفير الصورة

باختصار ليس كثيرًا. هذا هو السبب وراء كون رؤية الكمبيوتر مثيرة للغاية: في حين أن أجهزة الكمبيوتر العملاقة في الماضي كانت تستغرق أيامًا أو أسابيع أو حتى أشهر لإجراء جميع الحسابات المطلوبة، فإن الرقائق فائقة السرعة والأجهزة ذات الصلة اليوم، جنبًا إلى جنب مع الإنترنت السريع والموثوق والشبكات السحابية، تجعل العملية سريعة للغاية.

إن وحدات المعالجة المركزية (CPUs) السريعة للغاية والتكنولوجيا المرتبطة بها، جنبًا إلى جنب مع الإنترنت السريع والموثوق والبنية التحتية المستندة إلى السحابة، تجعل العملية برمتها سريعة للغاية في الوقت الحاضر. والأهم من ذلك، أن العديد من أكبر الشركات التي تستثمر في أبحاث الذكاء الاصطناعي، مثل Google وFacebook وMicrosoft وIIBM، كانت صريحة بشأن أبحاثها وتطويرها في هذا المجال. بهذه الطريقة، يمكن للناس أن يبنوا على الأساس الذي وضعوه.

وقد أدى ذلك إلى زيادة سخونة قطاع الذكاء الاصطناعي، والدراسات التي كانت تستغرق أسابيع لاستكمالها قد تكتمل الآن في بضع دقائق. بالإضافة إلى ذلك، بالنسبة للعديد من مهام رؤية الكمبيوتر في العالم الفعلي، تتم هذه العملية برمتها باستمرار في غضون ميكروثانية. ونتيجة لذلك، قد يحقق الكمبيوتر حاليًا ما يشير إليه الباحثون بحالة "الوعي الظرفي".

 

المصادر:

 

- What is computer vision?, IBM, By IBM, DEC. 20, 2023

https://www.ibm.com/topics/computer-vision

- What Is Computer Vision: Applications, Benefits and How to Learn It, Simplilearn, By Simplilearn, Aug 10, 2023

https://www.simplilearn.com/computer-vision-article

- Everything You Ever Wanted To Know About Computer Vision, By Ilija Mihajlovic, towards data science, Apr 25, 2019

https://towardsdatascience.com/everything-you-ever-wanted-to-know-about-computer-vision-heres-a-look-why-it-s-so-awesome-e8a58dfb641e


عدد القراء: 1537

اقرأ لهذا الكاتب أيضا

اكتب تعليقك

شروط التعليق: عدم الإساءة للكاتب أو للأشخاص أو للمقدسات أو مهاجمة الأديان أو الذات الالهية. والابتعاد عن التحريض الطائفي والعنصري والشتائم.
-