من البيانات إلى البصيرة: نمذجة المواضيع واستراتيجيات تصنيف المواضيع التلقائية
DOI:
https://doi.org/10.54153/sjpas.2025.v7i4.1061الكلمات المفتاحية:
التعلم العميق، S-BERT، تقليل الأبعاد، تماسك الموضوع، وتنوع الموضوعالملخص
من أجل تعزيز إمكانية تفسير البيانات لأغراض صنع القرار، تتطلب مجموعات النصوص العلمية والبيولوجية والاجتماعية تقنيات التعلم الآلي الفعالة. يتم دعم التنقيب عن النصوص من خلال نماذج المواضيع في مصادر مثل المدونات، وبيانات تويتر، والمجلات العلمية، والأوراق الطبية الحيوية. لا يزال من الصعب العثور على التصنيفات المناسبة، حتى عندما تشير نماذج المواضيع إلى مفاهيم مهمة. يتم تقليل الجهد المعرفي للمحللين عن طريق أتمتة تقييم الموضوع وتصنيفه. في حين أن بعض التقنيات تعتمد على تكرار الكلمات لإنتاج تسميات تحتوي على كلمات أو عبارات أو صور، فإن الطرق الاستخراجية تختار التسميات بناءً على مقاييس الاحتمالية. تقترح هذه الدراسة تحسين نمذجة المواضيع في مجموعة من أوراق المؤتمرات حول أنظمة معالجة المعلومات العصبية (NIPS) التي تم إصدارها بين عامي 1987 و2017 وحققت هدفين: إنتاج موضوعات أكثر تماسكًا ووضع العلامات التلقائية على المواضيع. تم تحقيق الهدف الأول من خلال خمس مراحل: مرحلة المعالجة المسبقة للنص، مرحلة التخفيض باستخدام طريقة جديدة تسمى SR-LW (تقليل الجمل على أساس الطول والوزن)، والتي تزيل الجمل الأقصر طولًا، ثم تحسب وزن الجمل المتبقية. ويزيل ما يقرب من 25% من الجمل ذات الوزن الأقل. تستخدم مرحلة تضمين الجملة S-BERT (تمثيل تشفير الجملة ثنائي الاتجاه من المحول) لتقليل أبعاد مرحلة تضمين الجملة من خلال استخدام التقريب والإسقاط المتنوع الموحد (UMAP). وأخيرًا، نظم التجميع المكاني الهرمي القائم على الكثافة للتطبيقات ذات الضوضاء (HDBSCAN) وثائق قابلة للمقارنة. توضح النتائج التجريبية أن استخدام مرحلة SR-LW المقترحة قد أنتج موضوعات أكثر تماسكًا، مما أدى إلى تحسين تماسك الموضوع بمقدار (0.593) وأداء تنوع الموضوع بمقدار (0.96). على الرغم من أن نمذجة الموضوع تستخرج الجمل الأكثر بروزًا التي تصف الموضوعات الكامنة من المجموعات النصية، إلا أنه لم يتم تحديد التسمية المناسبة بعد. أما الهدف الثاني فقد تم تحقيقه من خلال اقتراح طريقة جديدة لتوليد الكلمات الرئيسية من خلال الوصول إلى الملفات الشخصية للمؤلفين في الباحث العلمي من Google واستخراج الاهتمامات لاستخدامها في تصنيف المواضيع تلقائيًا.
التنزيلات
منشور
إصدار
القسم
الرخصة

هذا العمل مرخص بموجب Creative Commons Attribution 4.0 International License.
Copyright Notice
Authors retain copyright and grant the SJPAS journal right of first publication, with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgement of the work's authorship and initial publication in Samarra Journal of Pure and Applied Science.
The Samarra Journal of Pure and Applied Science permits and encourages authors to archive Pre-print and Post-print items submitted to the journal on personal websites or institutional repositories per the author's choice while providing bibliographic details that credit their submission, and publication in this journal. This includes the archiving of a submitted version, an accepted version, or a published version without any Risks.



