پایان نامه با کلمات کلیدی رگرسيون، مالي، تقلب‌‌هاي، داده‌کاوي

پایان نامه ها و مقالات

تعيين شود قواعد ايجادشده در يک مجموعه‌ متفاوت از داده‌‌ها، به چه کيفيتي عمل مي‌‌کنند. بر مبناي نتايج اجراي مدل، عملکرد مدل ارزيابي مي‌شود؛ در نتيجه يا اصلاح مي‌گردد يا براي حل مسئله به‌کار گرفته مي‌شود [9].
داده كاوي از چندين رشته علمي بطور هم‌زمان بهره ميبرد نظير : تكنولوژي پايگاه داده، هوش مصنوعي ،شبكه‌‌هاي عصبي،آمار،سيستم‌‌هاي مبتني بر دانش،بازيابي اطلاعات وغيره، كه براي پرهيزاز اطاله كلام مي توان آن را به لحاظ تاريخي به اختصار به مراحل زير تقسيم كرد:
مرحله اوليه: گردآوري وايجاد پايگاه اطلاعاتي(تا دهه 1960)
مرحله دوم : نظام‌هاي مديريتي مبني بر پايگاه اطلاعاتي(دهه1970 واوايل دهه 1980)
مرحله سوم : نظام‌هاي پايگاه اطلاعاتي پيشرفته (اواسط دهه 1980 تازمان حاضر)
مرحله چهارم : انبارش اطلاعات وداده كاوي (اواخر دهه 1980 تا به امروز)
مرحله پنجم : نظام پايگاه اطلاعاتي مبني برشبكه (دهه 1990 تا كنون)
مرحله ششم : نسل نوين نظام‌هاي اطلاعاتي يكپارچه شده(از 2000 به بعد)
بدين ترتيب فعاليتي كه از دهه 1960 شروع شده بود در دهه 1990 گام‌هاي بلندي برداشت وانتظار ميرود در اين قرن به رشد و بالندگي خود ادامه دهد[4].
2‌.2‌.2‌ چارچوبي کلي براي الگوريتم‌هاي داده‌کاوي
هر چند الگوريتم‌هاي داده‌کاوي بسياري براي کشف تقلب مورد استفاده قرار گرفته‌اند، اما کاربرد آن‌ها، همچنان از چهارچوب سنتي داده‌کاوي يعني انتخاب ويژگي، نمايندگي، گرداوري و مديريت داده‌‌ها، پيش‌پردازش، داده‌کاوي، پس‌پردازش و ارزيابي عملکرد پيروي مي‌کند.
استانداردهاي وضع شده در اين زمينه، به جنبه هاي گوناگون و ابعاد مختلف کاربردهاي داده کاوي اشاره دارند. از استانداردهاي وضع شده براي فرآيند داده کاوي که در اين پروژه از آن استفاده شده است استاندارد کريسپ دي‌ام5 مي‌باشد که در ادامه به شرح آن مي‌پردازيم(شکل ‏2-1).

شکل ‏2-1 مدل CRISP-DM
بر اساس اين استاندارد، فرايند حل مسئله با کمک داده‏کاوي در شش مرحله و در تعامل با کارفرما صورت مي گيرد.
1- کارفرما مشکلي در کسب و کار خود دارد. مشکل خود را با متخصص داده‏کاوي مطرح مي کند. اين گام اول است. در حالت ديگر، کارفرما نمي تواند مشکلات کسب و کار خود را تشخيص دهد اما مي داند سيستم کسب و کار وي داراي نقصان است. در اين حالت طرح مسئله را نيز بر عهده ي متخصص داده‏کاوي مي گذارد.
2- متخصص داده‏کاوي، داده‌هاي ثبت شده در کسب و کار کارفرما را از وي درخواست مي کند و به بررسي داده‌ها مي پردازد. متخصص داده‏کاوي با توجه به حجم و کيفيت داده‌ها مسئله ي طرح شده در مرحله ي قبل را تعديل مي کند تا نتيجه ي پروسه ي داده‏کاوي واقع بينانه تر بشود.
3- در مرحله ي سوم عمليات آماده سازي داده‌ها توسط متخصص داده‏کاوي صورت مي گيرد. آماده سازي داده ها شامل اين موارد مي شود:
* يکي کردن انبارهاي متفاوت داده در کسب و کار کارفرما
* شناسايي و حذف داده هاي پرت و اشتباه
* تغيير فرمت داده ها متناسب با مسئله ي تعديل شده در مرحله ي دوم
4- قدم چهارم مدلسازي داده هاي آماده سازي شده است. با توجه به متدهاي متفاوت، مدل هاي متفاوتي ساخته مي شود و بهترين مدل ها از نظر متخصص داده‏کاوي انتخاب مي شود.
5- مدل هاي ساخته شده ارزيابي مي شوند و بهترين مدل از نظر مسئله ي طرح شده در مرحله ي يک، انتخاب مي شود. سپس در تبادل نظر با کارفرما، موثر بودن مدل انتخاب شده بررسي مي شود. در صورتي که مدل انتخاب شده کمکي در حل مسئله نمي کند کل فرايند از مرحله ي يک دوباره انجام مي شود.
6- در صورتي که ارزيابي ها رضايت بخش باشند راه حل‌هايي در قالب توسعه ي مدل نهايي ارائه مي شوند که مشکلات مطرح شده در مرحله ي يک را برطرف مي کنند. مدل نهايي به متخصص داده‏کاوي نشان مي دهد که رفتار مجموعه ي کسب و کار کارفرما در مورد مشکلات مطرح شده در مرحله ي يک چگونه است. اين درک از رفتار کسب و کار، در قالب راه حل‌هاي عددي و چند فرمول يا راهکار عملي در اختيار کارفرما قرار مي گيرد تا مشکلات مطرح شده در مرحله ي يک رفع گردد. همچنين متخصص داده‏کاوي مي تواند در قالب گزارشات مستند مکانيزم رفتاري کسب و کار کارفرما را براي وي تشريح کند.[1]
2‌.2‌.3‌ کاربرد داده‌کاوي در کشف تقلبات مالي
گاي و همکاران کاربرد روش‌‌هاي داده‌کاوي براي کشف تقلب‌‌هاي مالي را مورد بررسي قرار دادند. آنان 49 مقاله چاپ‌شده در مجلات معتبر را بررسي کردند و مشخص شد که در مجموعه‌ تحقيق‌‌هاي مورد بررسي، از شش کاربرد داده‌کاوي براي کشف تقلب‌‌هاي مالي استفاده شده است. اين موارد عبارتند از طبقه‌بندي، رگرسيون، خوشه‌بندي، پيش‌بيني، کشف داده‌‌هاي پرت و تصويرسازي. هر يک از اين شش طبقه، با مجموعه‌اي از رويکرد‌هاي الگوريتمي حمايت مي‌شود که به‌دنبال استخراج روابط بين داده‌‌ها هستند. [12] اين رويکرد‌ها از منظر نوع مسائلي که قادر به حل آن‌ها هستند، با يکديگر تفاوت دارند. اين طبقات به‌شرح زيرند(شکل ‏2-2).

شکل ‏2-2 روش‌هاي استفاده شده براي کشف انواع تقلبات مالي[35]
الف. طبقه‌بندي
طبقه‌بندي مدلي را مي‌سازد و از آن براي پيش‌بيني عنوان طبقات اشياي ناشناخته استفاده مي‌کند تا بين اشياي متعلق به طبقات مختلف، تمايز ايجاد کند. اين عناوين طبقاتي از قبل تعريف ولي متمايز و مرتب نشده‌اند[15]. ژانگ و ژو اظهار مي‌دارند که طبقه‌بندي و پيش‌بيني عبارت
ا
ست از فرايند شناسايي مجموعه‌اي از ويژگي‌‌ها و مدل‌‌هاي مشترک که طبقات يا مفاهيم داده‌‌ها را توصيف و متمايز مي‌کنند [16].روش‌‌هاي معمول طبقه‌بندي عبارتند از شبکه‌‌هاي عصبي6، شبکه‌‌هاي بيز ساده7، درختان تصميم8، و ماشين‌هاي بُردار پشتيبان9. اينگونه وظايف طبقه‌بندي در کشف تقلب‌‌هاي کارت اعتباري، بيمه سلامت و بيمه‌ خودرو و تقلب‌‌هاي شرکتي و ديگر انواع تقلب، استفاده مي‌شوند. طبقه‌بندي يکي از رايج‌ترين مدل‌‌هاي يادگيري در کاربرد داده‌کاوي براي کشف تقلب‌‌هاي مالي است[17]. طبقه‌بندي فرايندي دو مرحله‌اي است. در گام اول، با استفاده از يک نمونه آموزشي، مدل آموزش داده مي‌شود. اين نمونه در تعدادي رديف (گروهک‌10)و ستون‌ (صفات) سازمان‌دهي مي‌شود. يکي از صفات، يعني صفت عنوان طبقه، حاوي مقاديري است که نشان‌دهنده طبقه‌ از پيش تعريف‌شده‌اي است که هر رديف به آن تعلق دارد. اين گام به‌عنوان يادگيري نظارت‌شده نيز معروف است. در گام دوم، در مدل تلاش مي‌شود اشيايي که به نمونه‌ آموزشي تعلق ندارند، طبقه‌بندي شوند و يک نمونه آزمون (تاييد) تشکيل دهند[18].

ب. خوشه‌بندي11
از خوشه‌بندي براي تقسيم اشيا به گروه‌‌ها/خوشه‌‌ها‌يي که از نظر مفهومي معني‌دار هستند استفاده مي‌شود؛ به‌طوري که اشياي يک گروه با يکديگر مشابه، و در عين حال، بسيار متفاوت از اشياي ديگر گروه‌‌ها باشند. خوشه‌بندي با عنوان بخش‌بندي و تقطيع داده‌‌ها نيز شناخته مي‌شود و به‌عنوان گونه‌اي از طبقه‌بندي نظارت‌نشده به حساب مي‌آيد. طبق نظر يوئه و همکاران، تحليل خوشه‌بندي مرتبط است با مسئله تجزيه يا تقطيع مجموعه‌اي از‌ داده (معمولاً چندمتغيره) به چندين گروه، به‌طوري که نقاط در داخل يک گروه مشابه با يکديگر و تا حد ممکن متفاوت از نقاط در ديگر گروه‌‌ها هستند[19]. همچنين، ژانگ و ژو اظهار مي‌دارند که هر خوشه مجموعه‌اي از اشياي داده است که در همان خوشه مشابه يکديگرند، اما متفاوت از اشيا در ديگر خوشه‌‌ها هستند[23]. روش‌هاي متنوعي براي خوشه‌بندي داده‌ها وجود دارد که برخي از رايج ترين آن‌ها عبارتند از نزديک ترين همسايه کا، بيز ساده، نقشه خود انتظام، خوشه‌بندي کامينز، کوهنن و گروه‌هاي متناظر.
خوشه‌بندي کامينز12
الگوريتم کامينز داده‌‌ها را به خوشه‌‌هاي مجزا خوشه‌بندي مي‌کند. اين روش تعداد خوشه‌‌هاي ثابتي را تعيين مي‌کند. به طور تکراري رکورد‌ها را به خوشه‌‌ها تخصيص مي‌دهد و مراکز خوشه‌‌ها را تنظيم مي‌کند تا هنگامي که اصلاح بيشتر نتواند مدل را بهبود بخشد. در عوض تلاش براي پيش‌بيني يک خروجي، کامينز از يک فرآيند به نام يادگيري بدون نظارت براي کشف الگو‌ها در مجموعه‌اي از فيلد‌هاي ورودي استفاده مي‌کند[1].
خوشه‌بندي کوهنن13
شبکه‌‌هاي کوهنن يا کنت14 نوعي از شبکه‌‌هاي عصبي هستند که خوشه بندي را انجام ميدهن، .همچنين به عنوان نقشه خود انتظام شناخته مي شود.اين نوع از شبکه وقتي که نمي دانيد کدام يک از خوشه‌‌ها آغازين هستند مي تواند براي خوشه بندي مجموعه داده به گروه‌‌هاي تفکيک شده مورد استفاده قرار گيرد .رکورد‌هايي که در يک گروه يا خوشه هستند به طور معمول مشابه هم هستند. و رکورد‌هايي که در گروه‌هاي متفاوت هستند نامشابهند. کوهنن بر خلاف ساير شبکه‌‌هاي عصبي از فيلد هدف برخوردار نيست[1].
* خوشه‌بندي گروه متناظر15
مدل‌‌هاي کشف مغايرت 16 به منظور تشخيص برون‌نهاده يا موارد غير معمول در داده مورد استفاده قرار مي‌گيرند. بر خلاف ساير روش‌‌هاي مدلسازي که قوانين مرتبط با موارد غير معمول را نيز ذخيره مي‌کنند، مدل‌‌هاي کشف مغايرت تنها اطلاعات مربوط به رفتار‌هاي نرمال را ذخيره سازي مي‌کنند. اين مدل‌‌ها حتي در صورتي که نقاط پرت با هيچ الگوي معيني تطابق نداشته باشند آن‌ها را شناسايي مي‌کند و ممکن است براي مواردي مانند کشف کلاهبرداري نيز کاربرد داشته باشد. مدل کشف مغايرت يک روش بدون ناظر است، بدان معني که نياز به مجموعه داد‌هاي براي آموزش و يادگيري ندارد[1].
* خوشه‌بندي اي‌ام17
اين الگوريتم يکي از روشهاي متداول خوشه بندي مي باشد و بر اساس محاسب? احتمالات حضور در خوشه براي هر مورد و بکار گيري اين احتمالات براي تخمين مجدد پارامترها، خوشه بندي داده ها را انجام مي دهد. درمرحل? بعدي با ماکزيمم سازي احتمال حضور هر مورد در خوشه اين الگوريتم به خوشه بندي نهايي مي رسد.
ج. پيش‌بيني18
پيش‌بيني، مقادير عددي و پيوسته آينده را بر مبناي الگو‌هايي از يک مجموعه داده براورد مي‌کند.‌‌هان و کَمبر تاکيد کرد‌هاند که براي پيش‌بيني، صفتي که پيش‌بيني آن انجام مي‌شود بايد پيوسته باشد و نه کيفي (طبقه‌اي) [15]. اين صفت را مي‌توان صفت مورد پيش‌بيني ناميد. شبکه‌‌هاي عصبي و مدل لجستيک19، رايج‌ترين روش‌‌هاي مورد استفاده براي پيش‌بيني هستند [17].
د. کشف نقاط پرت20
از کشف نقاط پرت براي اندازه‌گيري فاصله بين اشياي داده به‌منظور کشف اشيايي که به‌شکلي متفاوت از بقيه‌ي داده‌‌ها ناهمگون هستند، استفاده مي‌شود. داده‌‌هايي که ظاهراً ويژگي‌‌هايي متفاوت از بقيه جمعيت دارند، داده‌‌هاي پرت21 ناميده مي‌شوند. مسئله کشف داده‌‌هاي‌ پرت/متناقض يکي از بنيادي‌ترين مباحث در داده‌کاوي است. يکي از روش‌‌هاي رايج مورد استفاده در کشف داده‌ پرت الگوريتم يادگيري تنزيل‌شونده22 است [20].
ذ.
رگرسيون
رگرسيون روشي آماري براي کشف رابطه بين يک يا چند متغير مستقل و يک متغير وابسته (که يک مقدار پيوسته است) مي‌باشد[22]. در بسياري از مطالعات تجربي، از رگرسيون لجستيک به‌عنوان معياري براي سنجش استفاده مي‌شود. از رگرسيون معمولاًدر قالب روش‌‌هاي رياضي‌ مانند رگرسيون لجستيک و رگرسيون خطي براي کشف تقلب‌‌هاي کارت اعتباري، تقلب‌‌هاي بيمه‌اي و تقلب‌‌هاي گزارشگري شرکت‌‌ها استفاده مي‌شود. [17]
ر. تصويرسازي23
منظور از تصويرسازي ارائه داده‌‌ها به‌شکلي ساده و قابل درک مي‌باشد. در تصويرسازي ويژگي‌‌هاي داده‌‌هاي پيچيده به الگو‌هاي واضحي تبديل مي‌شود. بدين ترتيب کاربران اجازه مي‌يابند تا الگو‌ها يا روابط پيچيده‌ کشف‌شده در فرايند داده‌کاوي را ببينند[19].محققان از توانايي‌‌هاي کشف الگو24 در سيستم بينايي انسان استفاده کرده و به کمک مجموعه‌اي از ابزار‌ها و برنامه‌‌هاي انعطاف‌پذيرداده‌‌ها را با استفاده از رنگ، موقعيت، اندازه و ديگر ويژگي‌‌هاي بصري کدبندي مي‌کنند. بهترين کاربرد تصويرسازي براي آشکار کردن الگو‌هاي پيچيده از طريق ارائه واضح داده‌‌ها يا توابع بوده است [17].
2‌.2‌.4‌ پرکاربردترين روش‌‌هاي داده‌کاوي براي کشف تقلب‌‌هاي مالي
پرکاربردترين روش‌‌هاي داده‌کاوي براي کشف تقلب‌‌هاي مالي عبارتند از مدل‌‌هاي رگرسيون لجستيک، شبکه‌‌هاي عصبي، شبکه‌ استنباط بيزين25 و درخت تصميم که همه آن‌‌ها راه‌حل‌‌هاي قابل توجهي را براي مشکلات ذاتي در کشف و طبقه‌بندي داده‌‌هاي تقلبي ارائه مي‌کنند[17]. اين 4 روش، همگي در گروه “طبقه‌بندي” قرار مي‌گيرند که در ادامه به‌ طور مشروح مورد بحث قرار گرفته‌اند.
2‌.2‌.4‌.1‌ مدل رگرسيون
در پژوهش‌‌هاي داده‌کاوي، رگرسيون رايج‌ترين روش براي کشف تقلب مي‌باشد. مدل‌‌هاي رگرسيون مورد استفاده عبارتند از: Logit، لجستيک گام به گام،Multi Criteria Decision Aid و EGB2. [19]مدل رگرسيون لجستيک، رايج‌ترين مدل مورد استفاده است. اين مدل لجستيک يک Generalized Linear Model 26است که براي رگرسيون دوگانه‌اي استفاده مي‌شود و در آن متغير‌هاي پيش‌بيني‌کننده مي‌توانند کمي يا کيفي باشند. اين مدل اساساً براي حل مسائل مطرح در تقلب بيمه‌ خودرو و تقلب‌‌هاي شرکتي مورد استفاده قرار مي‌گيرد [24].
ايده‌هاي نهفته در پس رگرسيون اين است که با استفاده از نسبت‌‌هاي مالي شرکت‌‌ها مي‌توان مدلي را به دست آورد که نشان مي‌دهد کدام نسبت‌‌ها با ‌صورت‌‌هاي مالي تقلبي مرتبط هستند. با تلفيق داده‌‌‌هاي مربوط به صورت‌‌هاي مالي تقلبي و ‌صورت‌‌هاي مالي غيرتقلبي مي‌توان فهميد که کدام عوامل به‌شکلي معني‌دار بر شرکت‌‌هاي داراي ‌صورت‌‌هاي مالي تقلبي اثر مي‌گذارند. بدين ترتيب امکان صورتبندي مدل رگرسيون فراهم مي‌شود. اين مدل بر مبناي نسبت‌‌هاي ‌صورت‌‌هاي مالي که در مرحله‌ آموزش به‌عنوان نشانگر‌هاي تقلب مستند شده‌اند، شرکت‌‌ها را به گروه‌‌هاي متقلب و غيرمتقلب طبقه‌بندي خواهد کرد. [19]
2‌.2‌.4‌.2‌ شبکه‌‌هاي عصبي مصنوعي
شبکه‌ عصبي روشي است که با استفاده از مجموعه‌اي از گره‌‌هاي به‌هم‌مرتبط از کارکرد مغز انسان تقليد مي‌کند. اين روش مبتني بر مدل‌‌هاي رايانه‌اي از نورون‌هاي زيستي است. يک شبکه‌ عصبي چندلايه دربرگيرنده تعداد زيادي واحد (نورون) به‌هم‌مرتبط در الگويي از ارتباطات است[14]. اين روش به شکلي گسترده در طبقه‌بندي و خوشه‌بندي استفاده شده و پس از رگرسيون پرکاربردترين روش داده‌کاوي در کشف تقلب‌‌هاي مالي است. [19]کاربرد‌هاي شبکه‌‌هاي عصبي در حوزه مالي پيشرفت چشم گيري داشته است. حيطه‌‌هايي كه شبكه‌‌هاي عصبي در امور مالي مي

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *