الذكاء الاصطناعي يحوّل أفكار الناس إلى صور بدقة 80%

يمكن للذكاء الاصطناعي إنشاء صور بناء على مطالبات النص، لكن العلماء كشفوا عن معرض للصور التي تنتجها التكنولوجيا من خلال قراءة نشاط الدماغ. وأفادت وکالات أنه أعادت الخوارزمية الجديدة المدعومة بالذكاء الاصطناعي بناء حوالي 1000 صورة، بما في ذلك دمية دب وطائرة، من عمليات مسح الدماغ هذه بدقة 80%.. واستخدم باحثون من جامعة أوساكا نموذج الانتشار المستقر الشهير، المضمن في DALL-E 2 من OpenAI، والذي يمكنه إنشاء أي صور بناء على مدخلات النص.
وأظهر الفريق للمشاركين مجموعات فردية من الصور وقاموا بمسح التصوير بالرنين المغناطيسي الوظيفي (fMRI)، والذي قام الذكاء الاصطناعي بعد ذلك بفك تشفيره. وشارك الفريق في الدراسة المنشورة فيbioRxiv: " أظهرنا أن طريقتنا يمكنها إعادة بناء صور عالية الدقة بإخلاص دلالي عال من نشاط الدماغ البشري. وعلى عكس الدراسات السابقة لإعادة بناء الصورة، لا تتطلب طريقتنا تدريبا أو ضبطا دقيقا لنماذج التعلم العميق المعقدة". حيث تسحب الخوارزمية المعلومات من أجزاء من الدماغ تشارك في إدراك الصورة، مثل الفص الصدغي، وفقا ليو تاكاغي، الذي قاد البحث.
واستخدم الفريق التصوير بالرنين المغناطيسي الوظيفي لأنه يلتقط تغيرات تدفق الدم في مناطق الدماغ النشطة، وفقا لتقارير Science.org.ويمكن أن تكتشف FMRI جزيئات الأكسجين، بحيث يمكن للماسحات الضوئية أن ترى أين تعمل الخلايا العصبية - خلايا الدماغ العصبية - بجدية أكبر (وتجذب معظم الأكسجين) بينما لدينا أفكار أو عواطف.
ويبدأ الذكاء الاصطناعي في إنشاء الصور كضوضاء مشابهة للتلفاز الثابت، والتي يتم استبدالها بعد ذلك بميزات يمكن تمييزها تراها الخوارزمية في النشاط من خلال الإشارة إلى الصور التي تم تدريبها عليها والعثور على تطابق. ووفقا للدراسة، أوضحنا أن إطارنا البسيط يمكنه إعادة بناء صور عالية الدقة (512 × 512) من نشاط الدماغ بدقة دلالية عالية. ونحن نفسر كمياً كل مكون من مكونات LDM من منظور علم الأعصاب عن طريق تعيين مكونات محددة لمناطق دماغية متميزة. ونقدم تفسيرا موضوعيا لكيفية قيام عملية تحويل النص إلى الصورة التي يتم تنفيذها بواسطة LDM [نموذج الانتشار الكامن] بدمج المعلومات الدلالية التي يعبر عنها النص الشرطي مع الحفاظ في نفس الوقت على مظهر الصورة الأصلية.

 

البحث
الأرشيف التاريخي