From Data to Insight: Topic Modelling and Automatic Topic Labelling Strategies

Rana F. Najeeb; Ban N. Dhannoon; Farah Qais Alkhalidi

doi:10.54153/sjpas.2025.v7i4.1061

المؤلفون

Rana F. Najeeb University of Mustansiriyah
Ban N. Dhannoon Al-Nahrain University, Baghdad, Iraq
Farah Qais Alkhalidi

DOI:

https://doi.org/10.54153/sjpas.2025.v7i4.1061

الكلمات المفتاحية:

التعلم العميق، S-BERT، تقليل الأبعاد، تماسك الموضوع، وتنوع الموضوع

الملخص

من أجل تعزيز إمكانية تفسير البيانات لأغراض صنع القرار، تتطلب مجموعات النصوص العلمية والبيولوجية والاجتماعية تقنيات التعلم الآلي الفعالة. يتم دعم التنقيب عن النصوص من خلال نماذج المواضيع في مصادر مثل المدونات، وبيانات تويتر، والمجلات العلمية، والأوراق الطبية الحيوية. لا يزال من الصعب العثور على التصنيفات المناسبة، حتى عندما تشير نماذج المواضيع إلى مفاهيم مهمة. يتم تقليل الجهد المعرفي للمحللين عن طريق أتمتة تقييم الموضوع وتصنيفه. في حين أن بعض التقنيات تعتمد على تكرار الكلمات لإنتاج تسميات تحتوي على كلمات أو عبارات أو صور، فإن الطرق الاستخراجية تختار التسميات بناءً على مقاييس الاحتمالية. تقترح هذه الدراسة تحسين نمذجة المواضيع في مجموعة من أوراق المؤتمرات حول أنظمة معالجة المعلومات العصبية (NIPS) التي تم إصدارها بين عامي 1987 و2017 وحققت هدفين: إنتاج موضوعات أكثر تماسكًا ووضع العلامات التلقائية على المواضيع. تم تحقيق الهدف الأول من خلال خمس مراحل: مرحلة المعالجة المسبقة للنص، مرحلة التخفيض باستخدام طريقة جديدة تسمى SR-LW (تقليل الجمل على أساس الطول والوزن)، والتي تزيل الجمل الأقصر طولًا، ثم تحسب وزن الجمل المتبقية. ويزيل ما يقرب من 25% من الجمل ذات الوزن الأقل. تستخدم مرحلة تضمين الجملة S-BERT (تمثيل تشفير الجملة ثنائي الاتجاه من المحول) لتقليل أبعاد مرحلة تضمين الجملة من خلال استخدام التقريب والإسقاط المتنوع الموحد (UMAP). وأخيرًا، نظم التجميع المكاني الهرمي القائم على الكثافة للتطبيقات ذات الضوضاء (HDBSCAN) وثائق قابلة للمقارنة. توضح النتائج التجريبية أن استخدام مرحلة SR-LW المقترحة قد أنتج موضوعات أكثر تماسكًا، مما أدى إلى تحسين تماسك الموضوع بمقدار (0.593) وأداء تنوع الموضوع بمقدار (0.96). على الرغم من أن نمذجة الموضوع تستخرج الجمل الأكثر بروزًا التي تصف الموضوعات الكامنة من المجموعات النصية، إلا أنه لم يتم تحديد التسمية المناسبة بعد. أما الهدف الثاني فقد تم تحقيقه من خلال اقتراح طريقة جديدة لتوليد الكلمات الرئيسية من خلال الوصول إلى الملفات الشخصية للمؤلفين في الباحث العلمي من Google واستخراج الاهتمامات لاستخدامها في تصنيف المواضيع تلقائيًا.

من البيانات إلى البصيرة: نمذجة المواضيع واستراتيجيات تصنيف المواضيع التلقائية

المؤلفون

DOI:

الكلمات المفتاحية:

الملخص

التنزيلات

منشور

إصدار

القسم

الرخصة

كيفية الاقتباس

المؤلفات المشابهة

google scholar

المعلومات

اللغة

معلومات عن المجلة