اجرای پروژه تحقیقاتی تحت عنوان کشف تقلب و تخلف در صنعت بیمه توسط استاد دانشگاه صنعتی نوشیروانی بابل
دکتر کاظمی تبار اظهار داشت: یکی از چالش های مهم در حل مسایل کشف تقلب بیمه، عدم دسترسی به برچسب داده ها می باشد. به دست آوردن برچسب داده ها در این گونه مسایل پرهزینه و زمان بر است. همین امر سبب امکان ناپذیر شدن استفاده از بسیاری از روش های با ناظر پایدار در این حوزه می شود. در واقع کشف نمونه های آنومالی در فضای داده ها تنها با استفاده از تاریخچه رفتاری که در مورد داده ها در اختیار است امکان پذیر است.
عضو هیات علمی دانشگاه صنعتی نوشیروانی بابل گفت: چالش دیگر در حل این گونه مسایل، طبیعت غیر متعادل داده هاست. بدیهی است تعداد نمونه های آنومالی بسیار کمتر از تعداد نمونه های نرمال است. در کاربردهای مختلف، اشتباه در تشخیص آنومالی از غیر آن می تواند هزینه های مختلفی را سبب گردد. برای مثال نتایج اشتباه در تشخیص ابتلا به سرطان در شخصی که مبتلا به سرطان است می تواند وحشتناک باشد. نتیجه اشتباه در تشخیص شخصی که از جمله نمونه های نرمال فضای داده های بیمه خودرو می باشد به عنوان فردی مشکوک می تواند کاهش اعتماد افراد را در پی داشته باشد. بنابراین وقتی از روش های یادگیری برای حل این مساله استفاده می شود، لازم است موضوع غیرمتعادل بودن فضای داده ها و خطای سیستماتیک روش های یادگیری مورد توجه قرار گیرد.
دکتر کاظمی تبار افزود: چالش دیگر در تحلیل این نوع داده ها توسط طبیعت پویای آن ها به وجود می آید. در واقع با رشد روش های کشف آنومالی یا تقلب در داده های بیمه، متقلبان نیز روش های خود را تغییر می دهند. بنابراین نه تنها الگوریتم باید در مقابل افزایش حجم داده ها و تغییر آنها در زمان پایداری قابل قبولی داشته باشد؛ بلکه باید توانایی کشف آنومالی های جدید را نیز داشته باشد.
دکتر کاظمی تبار گفت: در این مطالعه روشی برای کشف تقلب بیمه خودرو استفاده می شود که مبتنی بر مرتب سازی طیفی است. این رویکرد بر چالش های نامبرده تا حدود زیادی غلبه می کند. در این رویکرد، داده براساس میزان آنومالی بودن نمونه ها مرتب سازی می شود. به هر نمونه یک مقدار حقیقی نسبت داده می شود و داده ها بر اساس این مقادیر مرتب سازی می شوند. هر چقدر عدد حقیقی نسبت داده شده به یک نمونه بزرگتر باشد، درجه ی آنومالی بودن آن بیشتر است. به عبارتی این بردار حقیقی می تواند نوعی پیوسته سازی از برچسب داده ها در نظر گرفته شود. به دست آوردن این بردار شبه برچسب، پیچیدگی محاسباتی زیادی دارد؛ چراکه نیاز به ضرب ماتریس های بسیار بزرگ و به دست آوردن بردارهای ویژه آنها می باشد. برای رفع این مساله، بردار مزبور برای بخشی از داده ها محاسبه می شود و برای محاسبه این بردار برای بقیه نمونه ها، دو طبقه بندی کننده ی جنگل تصادفی و یادگیری عمیق آموزش داده می شوند.