این مشکل به خصوص در پایگاه داده های تجاری حاد است.اگر پایگاه داده از ابتدا با هدف کشف دانش طراحی نشده باشد ممکن است فاقد برخی ویژگی های مهم باشد.
-
- روابط پیچیده بین فیلدها
ویژگی ها یا مقادیر با ساختار سلسله مراتبی، روابط میان ویژگیها و نیز انواع روشهای پیچیده نمایش دانش، نیاز به الگوریتم هایی دارند که به طور موثر از این اطلاعات استفاده کنند.
-
- قابل درک بودن الگوها
در بسیاری از کاربردهای داده کاوی، اینکه کشفیات برای انسان قابل فهم تر شوند، بسیار مهم است]1[.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
2-5 پیش پردازش و آماده سازی داده ها :
آماده سازی داده ها برای داده کاوی هنر چلاندن و فشردن داده های موجود و بیرون کشیدن داده های با ارزش است.آماده سازی نیز به عنوان جزئی از داده کاوی بستگی به نوع مسئله و نیز روشها و ابزارهایی دارد که میخواهیم بر روی داده به کار ببندیم.
آماده سازی داده ها حدود 60 تا 90 درصد زمان مورد نیاز برای کاوش داده را صرف کرده و 75 تا 90 درصد موفقیت پروژه های داده کاوی به آن مربوط می شود.ممکن است داده مفقوده یا تکراری باعث گمراهی شوند.میتوان گفت داده ها در عالم واقع دارای آلودگی[14] های زیر هستند :
ناقص[15] : مانند نمونه های ناکافی، کمبود مقادیر برخی مشخصه ها
مغشوش[16] : داده ها دارای خطا یا مقادیر پرت هستند.
ناسازگار[17] : دارای تناقض در کدها و یا نام ها هستند.
2-5-1اجزای اصلی پیش پردازش داده ها
از دیدگاه آمار در بررسی مسائل مرتبط با پیش پردازش داده ها میتوان گفت مشکلات به دو دسته تقسیم میشوند :
-
- مسائل مربوط به نمونه مانند نمونه های مفقوده و داده های پرت
-
- مسائل مربوط به توزیع مانند نرمالیتی و خطی بودن]1[.
در ارتباط با دسته نخست میتوان به تفصیل موارد زیر پرداخت.
-
- پاکسازی داده
اغلب به جهت خطاهای عملیاتی و پیاده سازی سیستم ها، داده های برآمده از منابع دنیای واقعی پرغلط، ناقص و ناسازگار هستند.لذا لازم است در ابتدا چنین داده های کم کیفیتی تمیز شوند.این کار شامل برخی عملیات پایه مانند نرمال سازی، حذف نویز یا اغتشاش، مواجهه با داده های مفقوده، کاهش افزونگی، برطرف کردن ناسازگاری و از اینگونه کارها است.
-
- یکپارچه سازی داده
یکپارچه سازی داده نقش مهمی در KDD ایفا می کند.این عملیات شامل یکپارچه سازی چندین پایگاه داده ناهمگن بوده که قبلا به وسیله چندین منبع ایجاد شده است.
-
- تبدیل داده
این کار شامل عملیاتی همچون هموار سازی، تجمیع و نرمال سازی است.
-
- کاهش داده
این کار شامل یافتن ویژگیهای مفید برای بازنمایی داده و استفاده از روشهای کاهش بعد، گسسته سازی و استخراج(تبدیل) ویژگی ها است.
-
- تصویر کردن برای کاهش بعد
تصویر کردن برای کاهش بعد نوعی کاهش ستونی داده است با این فرق که در آن مشخصههای تغییر یافته جدیدی از روی مشخصه های اولیه ساخته میشوند.
شکل(2-4)-عملیات مختلف در پاکسازی داده]1[
2-5-1-1 پاکسازی داده ها
پاکسازی داده در واقع مرحله کنترل کیفی قبل از تحلیل داده است. به طور کلی میتوان گفت در این مرحله بررسی های زیر انجام می شود: