بسم الله الرحمن الرحيم
وزارت علوم، تحقيقات و فناوري
دانشگاه علوم و فنون مازندران
پايان نامه
مقطع کارشناسي ارشد
رشته: مهندسي فناوري اطلاعات
عنوان: ارائه چارچوبي براي امکان پذيري استخراج نيازمندي‌ها در سازمان‌هاي بزرگ مقياس به زبان فارسي مبتني بر نيازمندي‌هاي عملياتي و غير عملياتي
استاد راهنما: دکتر جواد وحيدي
استاد مشاور: دکتر بابک شيرازي
دانشجو: سيد حسين خليلي
شماره دانشجويي: 90191107
بهار 1392
تشکر و قدر داني
اکنون که اين تحقيق را به پايان مي‌برم، نخست خداي مهربان را سپاسگزارم که لطفش همواره شامل حالم بوده و لحظه‌اي مرا به حال خود واگذار نکرده است.
تقديم به پدر و مادر مهربانم که مي‌دانم هرچه دارم از دعاي خير آنها بوده است.
آنگاه از استاد راهنماي گرانقدرم جناب آقاي دکتر جواد وحيدي تشکر و قدر داني فراوان دارم. ايشان همواره با راهنمايي‌هاي بي‌نظيرشان حامي اينجانب بوده و همواره در تمام اين مدت اينجانب را با آغوشي باز پذيرفتند.
لازم مي‌دانم اقرار کنم بهره‌مندي‌هاي اينجانب از رهنمودها و مشاوره‌هاي استاد مشاورم جناب آقاي دکتر بابک شيرازي کمتر از ديگران نبوده و همواره وجود ايشان باعث دلگرمي و هدايت اينجانب به مسير تحقق اهدافم بوده و هست.
با سپاس فراوان از سازمان فناوري اطلاعات و ارتباطات شهرداري تهران بابت حمايت اطلاعاتي پايان نامه
در آخر توفيق روز افزون را براي همه‌ي کساني که در اين راه مرا ياري کردند از خداوند متعال خواستارم.
اجرکم عندالله
ارادتمند خليلي
چکيده:
در سازمان‌ها و سامانه‌هاي بزرگ مقياس و پيچيده، جهت تعيين نيازمندي‌هاي عملياتي و غير عملياتي در گستره‌اي که ممکن است هزاران ذينفع را در بر گيرد، دانشي جهت استخراج نيازمندي‌ها احساس مي‌گردد. با توجه به اينکه سازمان‌ها، داده‌ها و اطلاعات بسياري در تصرف خود دارند و با فلج ساختن اطلاعات يک چالش کليدي در تصميم گيري تشکيلات سازماني ايجاد مي‌نمايند، فرايند کشف دانش از پايگاه داده سازمان مطرح گرديده که يک فرايند علمي براي شناسايي الگوهاي معتبر، بالقوه مفيد و قابل فهم از داده‌ها مي‌باشد. در اين تحقيق قصد داريم با بکار گيري داده کاوي به عنوان مرحله‌اي از فرايند کشف دانش به ارائه‌ي چارچوبي جهت استخراج و اولويت بندي نيازمندي‌ها در سازمان‌هاي بزرگ مقياس پرداخته که در نتيجه کار خود، افزايش رضايتمندي را به همراه مي‌آورد. بدين صورت که ابتدا با توجه به فرکانس تکرار و درجه اهميت، نيازمندي‌ها را با استفاده از الگوريتم K-Means خوشه بندي کرده سپس با روشي به نام رتبه بندي و بهره گيري از ماتريس ارزش محور به اولويت بندي نيازمندي‌ها مي‌پردازيم. مطالعه موردي چارچوب پيشنهادي، پايگاه داده سامانه مديريت شهري 137 شهرداري تهران مي‌باشد. بر اساس نتايج بدست آمده مي‌توان خوشه‌هاي متفاوت از نيازها با اولويت اقدام متفاوت را معرفي نمود.
کلمات کليدي: مهندسي نيازمندي‌ها، استخراج نيازمندي‌ها، سازمان‌ها و يا سامانه‌هاي بزرگ مقياس، داده کاوي، اولويت بندي نيازها، رضايتمندي
فهرست مطالب
فصل اول (مقدمه و کليات تحقيق)2
1-1 مقدمه2
1-2 مهندسي نيازمندي‌ها2
1-3 استخراج نيازمندي‌ها3
1-4 سازمان‌هاي بزرگ مقياس4
1-5 ويژگي‌هاي سازمان‌ها و سامانه‌هاي بزرگ مقياس5
1-6 چالش‌هاي سازمان‌هاي بزرگ مقياس8
1-7 انگيزه8
1-8 تعريف مسئله9
1-9 فرضيه9
1-10 اهداف تحقيق10
فصل دوم (ادبيات و پيشينه تحقيق)12
2-1 مقدمه12
2-2 انگيزه‌هاي کاوش داده13
2-2-1 انگيزه‌هاي تجاري13
2-2-2 انگيزه‌هاي علمي15
2-3 چالش‌هاي داده کاوي16
2-3-1 چالش‌هاي اوليه17
2-3-2 چالش‌هاي ثانويه18
2-4 مروري بر کشف دانش و داده کاوي19
2-5 مراحل داده کاوي21
2-6 دلايل وجود و ضرورت داده کاوي29
2-7 داده کاوي سازماني30
2-8 نقش داده کاوي سازماني در معرفت سازماني31
2-9 معيارهاي تعريف نيازمندي‌هاي سيستم31
2-10 نتايج نيازمندي‌هاي نادرست32
2-11 پيشينه تحقيق32
2-11-1 روش‌هاي سنتي33
2-11-1-1 مقايسه روش‌هاي سنتي35
2-11-2 استفاده از ابزارها37
2-11-3 روش‌هاي نوين38
2-11-3-1 مقايسه روش‌هاي نوين46
2-12 تکنيک‌هايي در افزايش سطح بهبود رضايت ذينفعان در فاز استخراج نيازمندي‌ها47
2-13 نتيجه گيري49
فصل سوم (روش تحقيق)53
3-1 مقدمه53
3-2 راهکار پيشنهادي53
3-2-1 آماده سازي و پيش پردازش داده54
3-2-1-1 جمع آوري و بارگذاري داده‌هاي استخراج شده54
3-2-1-2 پاک سازي داده54
3-2-1-3 انتخاب زير مجموعه‌اي از ويژگي‌ها55
3-2-1-4 فيلترينگ نمونه‌ها55
3-2-1-5 تبديل داده55
3-2-1-6 خلق ويژگي55
3-2-1-7 نمونه برداري56
3-2-2 يادگيري مدل56
3-2-2-1 خوشه بندي56
3-2-2-2 خوشه بندي K-Means56
3-2-2-3 خوشه بندي با استفاده از الگوريتم K-Means با توجه به فرکانس تکرار و درجه اهميت درخواست‌ها و نيازمندي‌ها57
3-2-3 ارزيابي و تفسير مدل58
3-2-4 دسته بندي جديد و اولويت بندي نيازمندي‌هاي استخراج شده با استفاده از تکنيک رتبه بندي58
3-2-4-1 روش رتبه بندي60
3-2-4-2 شاخص‌هاي رتبه بندي60
3-2-4-3 ضرايب يا وزن شاخص‌ها61
فصل چهارم (محاسبات و يافته‌هاي تحقيق)65
4-1 مطالعه موردي: سامانه مديريت شهري 137 شهرداري تهران65
4-2 معرفي ابزار برتر داده کاوي RapidMiner66
4-3 پياده سازي روش پيشنهادي68
4-4 ارزيابي و تفسير خوشه‌ها69
فصل پنجم (نتيجه گيري و پيشنهادات)72
5-1 نتيجه گيري72
5-2 مشکلات و نقاط ضعف کارهاي مرتبط72
5-3 مزايا و ويژگي‌هاي روش پيشنهادي73
5-4 کارهاي آينده74
پيوست – منابع و مآخذ75
Abstract76
فهرست جداول
جدول2-1: مقايسه روش‌هاي سنتي استخراج نيازمندي‌ها36
جدول2-2: مسائلي در ارتباط با نيازمندي‌هاي تطبيق شده47
جدول3-1: معيارهاي SSE و ASC57
جدول3-2: بررسي برخي روش‌هاي اولويت بندي59
جدول3-3: تعيين ضريب شاخص (درجه اهميت)62
جدول3-4: تعيين درجه اهميت نيازمندي62
جدول3-5: تعيين ضريب شاخص63
جدول4-1: جدول پيام65
جدول4-2: نتيجه خوشه بندي و اولويت بندي نيازمندي‌ها69
فهرست شکل‌ها
شکل2-1: فرايند داده کاوي و کشف دانش20
شکل2-2: استفاده از داده کاوي در استخراج نيازمندي‌ها40
شکل2-3: شبکه اجتماعي43
شکل2-4: روش مبتني بر سناريو44
شکل2-5: مدل تکرار پذير استخراج نيازمندي‌هاي جامع46
شکل3-1: مراحل اصلي راهکار پيشنهادي53
شکل3-2: گام‌هاي مرحله آماده سازي و پيش پردازش داده54
شکل3-3: تعيين اولويت61
شکل3-4: ترتيب اولويت62
شکل4-1: نمايي از يک پردازش در نرم‌افزار RapidMiner67
شکل4-2: نمايي از مصور سازي داده‌ها در نرم‌افزار RapidMiner67
شکل4-3: استفاده از عملگرها در مراحل پياده سازي68
فصل اول
مقدمه و کليات تحقيق
1-1 مقدمه
مهندسي سيستم سعي مي‌کند تا نيازمندي‌هاي سيستم را تشخيص دهد که اين عمل با همکاري مشتريان، کاربران و تمامي ذينفعان انجام مي‌شود [1]. مديريت ارتباط با شهروند يکي از مباحث اصلي در مديريت دولتي نوين محسوب شده و از اهميت بسياري برخوردار است. در مديريت ارتباط با شهروند تمرکز اصلي بر شهروند محوري است و بهبود خدمت رساني و پاسخ گويي به شهروندان بر اساس نيازهاي ايشان، هدف اصلي محسوب مي‌شود. در واقع درک درست از نيازها و خواسته‌هاي گروه‌هاي مختلف شهروندان و ارائه خدمات مناسب با اين نيازها، موضوعي است که بايد در مديريت ارتباط با شهروند مورد توجه قرار گيرد [2].
1-2 مهندسي نيازمندي‌ها
خروجي فرايند مهندسي سيستم تعريفي از يک سيستم کامپيوتري يا محصول است. در اين مرحله نيز اين مشکل وجود دارد که چگونه مطمئن شويم که تعريف ارائه شده از سيستم نيازهاي مشتري را برطرف مي‌کند و انتظارات او را رفع مي‌سازد. براي اين منظور نيازمند به طي فرايند مهندسي نيازمندي‌ها هستيم. اين فرايند مکانيزم‌هاي مناسب را فراهم مي‌آورد تا تشخيص دهيم مشتري چه مي‌خواهد، نيازهاي تحليل چيست، يک راه معقول کدام است و ابهامات نيازمندي در کجا هستند.
مهندسي نيازمندي‌ها داراي پنج فاز مهم زير مي‌باشد [1]:
استخراج1 نيازمندي‌ها: در اين فاز اهداف سيستم و يا محصول مشخص مي‌گردد و نيز اينکه چه چيزي انجام مي‌گيرد، سيستم و يا محصول چگونه نيازهاي تجاري را رفع مي‌کنند.
تحليل2 نيازمندي‌ها: هنگاميکه نيازها جمع آوري شدند عمل تحليل روي آنها انجام مي‌گيرد. تحليل، نيازمندي‌ها را در زير دسته‌هايي خاص دسته بندي مي‌کند، ارتباط هر کدام را با ديگري بررسي نموده، جامعيت و ابهامات آنها را تست و نيازمندي‌ها را بر اساس نياز مشتري اولويت بندي مي‌کند.
تعريف مشخصات3 نيازمندي‌ها: در اين فاز بر اساس تعريف ايجاد شده از سيستم، يک مدل از آن ساخته مي‌شود.
اعتبار سنجي4 نيازمندي‌ها: در اين فاز نيازمندي‌ها براي وجود ابهامات مورد آزمايش و بررسي دقيق قرار مي‌گيرند.
مديريت5 نيازمندي‌ها: اين فاز مجموعه‌اي از فعاليت‌ها را تعريف مي‌کند که باعث مي‌شوند تيم پروژه بتواند تعيين، کنترل و ردگيري نيازمندي‌ها و تغييرات آنها را در هر زمان مديريت کند.
اين پنج فاز مکانيزم مناسبي جهت درک خواسته‌هاي ذينفعان، تحليل نيازها، تعيين امکان پذير بودن پروژه، مذاکره در مورد راه حل قابل قبول، تعيين راه حل به صورت شفاف، اعتبار سنجي خصوصيات و مديريت نيازمندي‌ها در زمان اعمال آنها به سيستم عملياتي مي‌باشد.
هدف از فاز اول تعيين اين موضوع است که چه مسائلي نياز به حل شدن دارند. در فاز دوم درک ارتباط بين نيازمندي‌هاي گوناگون مشتري و شکل دادن به ارتباطات براي دستيابي به نتيجه موفق انجام مي‌شود. در فاز سوم از روش‌هايي چون ايجاد يک مدل ملموس از سيستم مي‌تواند به تعيين نيازمندي‌ها کمک کند. در فاز چهارم توسط بازبيني مدل به اعتبار و صحت سنجي نيازهاي ثبت شده پرداخته و در فاز آخر به مديريت اين فرايند که شامل تعيين، کنترل و پيگيري نيازها و تغييرات آنها مي‌باشند، مي‌پردازيم.
1-3 استخراج نيازمندي‌ها
استخراج نيازمندي‌ها به عنوان اولين و مهم‌ترين فاز از پنج فاز مهندسي نيازمندي‌ها مي‌باشد. هدف استخراج نيازمندي‌ها تعيين اين مطلب است که چه مسائلي نيازمند حل شدن هستند. بيشتر سيستم‌هايي که در صنعت نرم افزار ساخته مي‌شوند نمي‌توانند نيازهاي کاربران را برآورده کنند. کيفيت نيازمندي‌ها براي موفقيت يک پروژه حياتي است. استخراج نيازمندي‌ها فاز اول مهندسي نيازمندي‌ها است و نقش مهمي در طول چرخه‌ي عمر توسعه‌ي نرم افزار دارد. اين فاز شامل مسائل اجتماعي، ارتباطي و تکنيکي و درگير بيرون کشيدن نيازمندي‌هاي مشتري است و يکي از فعاليت‌هاي کليدي و پيچيده محسوب مي‌شود، زيرا در اکثر موارد کاربران از نيازهاي خود آگاه نيستند و اختلاف در نقاط ديد طرز تفکر و انتظارات بين کاربران و تحليلگران اين کار را مشکل و چالش برانگيز ساخته است. براي پشتيباني و بهبود فرايند استخراج تکنيک‌هاي زيادي با نقاط ضعف و قدرت متفاوت وجود دارند اما مهندسان نيازمندي همواره براي انتخاب تکنيک مناسب از بين اين تکنيک‌ها مشکلاتي دارند. مهم‌ترين دليل آن اين است که يک تکنيک براي همه‌ي موقعيت‌ها مناسب نيست و موقعيت در طول فرايند استخراج تغيير مي‌کند. نقل قولي از فردريک بروکس جواب اين سؤال را که “چرا نيازمندي‌ها اينقدر اهميت دارند” مي‌گويد: سخت‌ترين بخش ساخت يک سيستم نرم‌افزاري تصميم گيري دقيق در مورد اين است که چه چيزي بايد ساخته شود. بخش‌هاي ديگر عمل درک نيازمندي‌ها به سختي وضع کردن نيازمندي‌هاي فني مجزا نيست که شامل همه رابطه‌هاي افراد، ماشين‌ها ، و سيستم‌هاي نرم افزاري ديگر است. بخش‌هاي ديگر سيستم حاصل را اينقدر عاجز نمي‌کنند اگر اشتباه انجام شود. هيچ بخش ديگري سخت‌تر از اين نيست که بعداً تصحيح شود. استنباط ، تحليل ، و خوب نوشتن نيازمندي‌ها سخت‌ترين بخش‌هاي مهندسي نرم افزار هستند. به هر حال به نقل قول از کارل ويگرس “اگر شما نيازمندي‌ها را درست نگيريد هيچ اهميتي نخواهد داشت که شما چيزهاي ديگر را چقدر خوب انجام داده باشيد”.
1-4 سازمان‌هاي بزرگ مقياس
همان طور كه از نام سازمان‌هاي بزرگ مقياس برمي‌آيد، اين نوع از سازمان‌ها، سازمان‌هايي هستند كه از نظر مقياس و اندازه فراتر از سازمان‌هاي امروزي هستند. اين “بزرگ مقياس” بودن از هر نظر قابل بررسي است: از نظر افراد درگير در سازمان، داده‌هاي ذخيره شده، بازيابي شده، دستكاري شده و پالايش شده، ميزان اتصالات و وابستگي بين واحدي مؤلفه‌هاي نرم‌افزاري، عناصر سخت‌افزاري و … .
“مقياس” در سازمان‌هاي بزرگ مقياس باعث تغيير همه چيز مي‌شود. اين سازمان‌ها، لزوماً به شكل نامتمركز هستند؛ توسط تعداد زيادي از ذينفعان با نيازهاي متضاد، توسعه و به كار گرفته مي‌شوند؛ به طور مستمر تكامل پيدا مي‌كنند؛ از قطعات ناهمگن تشكيل مي‌شوند؛ افراد تنها كاربران سامانه نيستند، بلكه بخشي از سامانه محسوب مي‌شوند؛ خرابي‌هاي نرم‌افزاري و سخت‌افزاري يك امر كاملاً عادي محسوب مي‌شوند و نمي‌توان آن‌ها را يك استثناء در نظر گرفت. همچنين، سامانه‌هاي بزرگ مقياس همزمان مورد استفاده قرار مي‌گيرند و نياز به روش‌هاي نوين براي كنترل دارند. اين ويژگي‌ها، لزوم بكارگيري روش‌هايي را براي استفاده، توليد، استقرار، مديريت، مستندسازي و تكامل سازمان‌هاي بزرگ مقياس اجتناب‌ناپذير مي‌سازد [3].
از نمونه اين سازمان‌ها مي‌توان به شهرداري تهران اشاره نمود که داراي مجموعه وسيعي از نيروي انساني در واحدهاي مختلف بوده که هدف آنها جلب رضايت هرچه بيشتر شهروندان مي‌باشد. ارضاي نيازمندي‌هاي شهروندان در اولويت وظايف اين سازمان قرار داشته و با بوجود آوردن زيرمجموعه‌هايي همچون سامانه مديريت شهري 137، سامانه نظارت همگاني 1888 و … با دخيل کردن شهروندان در ثبت نظرات، پيشنهادات، خواسته‌ها و نيازهايشان سعي به انجام بهتر اين وظيفه بزرگ دارد.
1-5 ويژگي‌هاي سازمان‌ها و سامانه‌هاي بزرگ مقياس
سازمان‌هاي بزرگ مقياس ويژگي‌هايي دارند كه باعث مي‌شوند رويكردهاي فعلي و مورد استفاده روش‌هاي مهندسي نرم‌افزار نتوانند پاسخگوي توسعه آن‌ها باشند. اين ويژگي‌ها عمدتاً ناشي از “مقياس” اين گونه از سازمان‌ها است. ويژگي اصلي سازمان‌هاي بزرگ مقياس، اندازه بسيار بزرگ آن‌ها در ابعاد مختلف است. البته ماهيت سامانه‌هاي بزرگ مقياس به مواردي فراتر از “اندازه” آن‌ها برمي‌گردد. در واقع، اندازه باعث مي‌شود بسياري از مواردي كه در سازمان‌هاي معمولي غير مهم يا كم اهميت بودند، تبديل به موارد بااهميت شوند. مشكلات ناشي از مقياس، نيازمند روش‌هاي جديد حل و تعريف مفاهيم نو براي طراحي، توسعه، كاركرد و تكامل سازمان‌ها است. مي‌توان هفت ويژگي را براي سازمان‌ها و يا سامانه‌هاي بزرگ مقياس در نظر گرفت. در ادامه، ضمن بيان اين ويژگي‌ها، مشخص مي‌كنيم چرا هر يك از آن‌ها باعث مي‌شود كه رويكردهاي فعلي مهندسي نرم‌افزار در مقابله با آن‌ها ناتوان باشد [3].
كنترل نامتمركز
مقياس سامانه‌هاي بزرگ مقياس تنها به شكل بسيار محدودي اجازه كنترل مركزي و سلسله مراتبي داده، توسعه، تكامل، و كاركرد را مي‌دهد. حتي مقدار محدود كنترل سلسله مراتبي كه امروزه در سامانه‌هاي بسيار بزرگ امكان‌پذير است، در سامانه‌هاي بزرگ مقياس مورد ترديد است، و در نتيجه مدل‌هاي متفاوتي را براي كنترل طلب مي‌كند.
نيازمندي‌هاي ذاتاً متضاد و ناشناخته
مقياس و پيچيدگي مسائلي كه سازمان‌هاي بزرگ مقياس بايد حل كنند، اغلب ما را به سمت وضعيتي سوق مي‌دهد كه در آن نيازمندي‌هاي يك سامانه تا زمان استفاده از آن سامانه ناشناخته‌اند. حتي، گاهي پس از آن كه سامانه مورد نظر عملياتي شد، درك ما از مسئله دچار تغيير مي‌شود. در واقع، هر تلاش براي حل مسئله، فهم ما را از آن مسئله بيشتر مي‌كند و باعث مي‌شود مسئله جديدي مطرح شده و به تلاشي ديگر براي حل آن نياز باشد. به اين شكل، بسياري از مسائلي كه سامانه‌هاي بزرگ مقياس بايد حل كنند، پايان‌پذير نيستند. از طرف ديگر، سامانه‌هاي بزرگ مقياس به دليل اندازه و ماهيتشان بايد طيف وسيعي از نيازمندي‌ها را ارضا كنند. هر چقدر دامنه اين نيازمندي‌ها وسيع‌تر باشد، تنوع و تضاد در بين آن‌ها افزايش مي‌يابد. همچنين، يكپارچگي راه‌حل‌ها نياز به دانش در حوزه‌هاي مختلف و بين دامنه‌اي دارد، كه به دست آوردن آن چندان ساده نيست.
تكامل و استقرار مداوم
يكي ديگر از پيامدهاي “اندازه” اين است كه سازمان‌هاي بزرگ مقياس براي مدت طولاني بايد به ارايه خدمات بپردازند. در واقع، اندازه اين نوع از سازمان‌ها جايگزيني يا از رده خارج شدن آن‌ها را غيرممكن مي‌سازد. سازمان‌هاي بزرگ مقياس نيز همانند سامانه‌هاي بسيار بزرگ امروزي به طور مداوم تكامل پيدا مي‌كنند تا نيازمندي‌هاي جديد و تغييريافته را برآورده كنند. با اين حال، ما به تكاملي متفاوت از تكامل در سازمان‌هاي بسيار بزرگ امروزي نياز داريم. هنگامي كه از تكامل يك سامانه صحبت مي‌كنيم، منظورمان تغييرات هدايت‌شده‌اي است كه بر اساس قواعد و سياست‌ها، به شكل محلي انجام مي‌شود بدون آن كه يكپارچگي آن سامانه را از بين ببرد. اما، يكپارچگي در سامانه‌هاي بزرگ مقياس توسط گروه‌هاي مختلفي از ذينفعان انجام مي‌شود. هيچ تضميني وجود ندارد كه اين تغييرات كاملاً قاعده‌مند بوده و بر اساس قواعد از پيش تعريف شده انجام پذيرد.
عناصر ناهمگن، ناسازگار و در حال تغيير
اندازه سامانه‌هاي بزرگ مقياس به اين معني است كه عناصر آن (همچون سخت‌افزار، نرم‌افزار، روال‌ها، قواعد، افراد و …) ناهمگن، ناسازگار و در حال تغيير هستند. عناصر نرم‌افزاري به دليل گوناگون بودن منابع آن‌ها ناهمگن هستند (زبان‌هاي برنامه‌سازي متفاوت، سكوهاي مختلف، متدلوژي‌هاي متفاوت و …). از آن جا كه ايجاد نرم‌افزارها نيز در شرايط متفاوتي (از منظر مكان‌ها، زمان‌بندي‌ها، فرآيندها، اهداف، ذينفعان و …) انجام شده است، احتمالاً در طراحي، ساخت و بهره‌برداري با يكديگر ناسازگارند. بخش‌هاي مختلف يك سامانه همواره در حال تغيير هستند. محيط عملياتي تغيير مي‌كند؛ بخش‌هاي خراب سخت‌افزار بايد جايگزين شوند؛ نرم‌افزارها و سخت‌افزارها به روز مي‌شوند؛ و پيكربندي مؤلفه‌ها اصلاح مي‌شوند.
از بين رفتن تدريجي مرز بين افراد و سامانه
افراد نه تنها كاربران يك سامانه بزرگ مقياس هستند، بلكه بخشي از رفتار كلي آن نيز محسوب مي‌شوند. در واقع، مرز بين سامانه و نقش‌هاي كاربر/ توسعه‌دهنده به روشني مشخص نيست. يك شهر را در نظر بگيريد. افرادي كه در اين شهر ساكن هستند، ممكن است تغيير و نگهداري آن را نيز به عهده داشته باشند. در واقع يك شخص، نقش‌هاي متفاوتي دارد. در يك سامانه بزرگ مقياس نيز چنين وضعيتي رخ مي‌دهد. يك شخص در يک زمان ممکن است كاربر سامانه باشد؛ در وقتي ديگر ممکن است يك نقش نگهداشت را بر عهده گيرد؛ در زماني ديگر مي‌تواند عملكردهاي سامانه را اضافه و كم يا تصحيح کند. در نظر گرفتن افراد به عنوان بخشي از سامانه‌هاي بزرگ مقياس به اين معني است كه با تغيير توانايي‌هاي محاسباتي و پيكربندي سازمان‌ها بايد فرآيندها و روال‌هاي مربوطه جهت كمك به درك افراد در راستاي اهداف و مأموريت‌هاي آن‌ها اصلاح شود، زيرا افراد بخشي از خود سامانه بزرگ مقياس هستند.
خرابي‌هاي طبيعي
از آن جا كه زيربناي فيزيكي يك سامانه بزرگ مقياس بسيار گسترده است، خرابي سخت‌افزار ديگر يك امر غيرعادي نيست؛ بلكه به طور طبيعي اتفاق مي‌افتد. همچنين، از آنجا كه مؤلفه‌هاي نرم‌افزاري فراتر از ظرفيتي كه طراحي شده‌اند، تحت فشار قرار مي‌گيرند، رفتار آن‌ها نيز ممكن است نامطلوب باشد؛ كه اين مسئله نيز كاملاً عادي است. فرض كنيد يك پروتكل ارتباطي در هر يك ميليون انتقال فايل يك بار با شكست روبه‌رو مي‌شود. اگر انتقال فايل يك ميليون بار در روز اتفاق افتد، به طور متوسط يك شكست در روز خواهيم داشت. در سامانه‌هاي بزرگ مقياس معمولاً بروز خرابي آن قدر متداول است كه در واقع مي‌توان گفت خطا “هميشه” رخ مي‌دهد. با توجه به مقياس چنين سامانه‌هايي، مسئله خرابي بايد به شكل يك مشكل پيوسته در طراحي و ساخت لحاظ شود.
پارادايم‌هاي جديد براي استفاده و سياست‌گذاري
به دليل اندازه سامانه‌هاي بزرگ مقياس، افرادي كه مسئول ساخت آن‌ها هستند (احتمالاً مديران، توسعه‌دهندگان، فروشندگان، و …) نمي‌توانند به طور قطعي تعريف شوند. نمي‌توان نيازمندي‌هاي متغير و غيرقطعي ذينفعان را كنترل كرد. نمي‌توان نيازمندي‌ها را به شكل متمركز و سراسري نظارت كرد. در حقيقت اندازه سامانه‌هاي بزرگ مقياس باعث بروز يك چالش اساسي براي مديران مي‌شود. اگر نتوان نيازمندي‌هاي واقعي ذينفعان را به طور كامل مشخص كرد، چگونه مي‌توان فرآيند بستن قرارداد، طراحي و ساخت را كنترل كرد.
1-6 چالش‌هاي سازمان‌هاي بزرگ مقياس
سازمان‌هاي بزرگ مقياس داراي ويژگي‌هايي هستند كه باعث مي‌شوند رويكردهاي (فعلي و مورد استفاده) روش‌هاي مهندسي نرم‌افزار نتوانند پاسخگوي نيازهاي آن‌ها باشند. اين ويژگي‌ها عمدتاً ناشي از “مقياس” اين گونه از سازمان‌ها است. روش‌هاي امروزي براي استخراج صحيح نيازمندي‌ها در اين سازمان‌ها كافي نيستند. موفقيت سازمان‌هاي بزرگ مقياس و دست‌يابي به اهداف و مقاصد اين نوع از سازمان‌ها بستگي به توسعه توانمندي‌هاي جديد دارد [3]. از نمونه اين چالش‌ها مي‌توان به بحث استخراج و اولويت بندي نيازمندي‌ها در سامانه مديريت شهري 137 شهرداري تهران اشاره نمود که شامل ميليون‌ها رکورد ثبت شده از خواسته‌ها و نيازهاي شهروندان مي‌باشد که استفاده از اين حجم عظيم اطلاعات، اين سامانه را گاهاً دچار مشکل مي‌کند.
1-7 انگيزه
امروزه اهميت اولين فاز از فازهاي مهندسي نيازمندي‌ها بر همگان مشخص گرديده و بارها مشاهده کرديم که ناديده گرفتن يک ذينفع منجر به صدمات جبران ناپذير و يا حداقل منجر به ناديده شدن گروهي از ذينفعان ديگر گرديده است. در استخراج نيازها، افراد ديدگاه‌ها و نظرات متفاوتي در نيازها و اولويت اجراي آنها دارند و با رشد روز افزون بازار فناوري اطلاعات و بزرگ شدن پروژه‌ها اهميت و پيچيدگي اين موضوع بيشتر مي‌گردد.
انگيزه از جايي شروع مي‌شود که تا ندانيم چه مسائلي نياز به حل شدن دارند نمي‌توانيم به دنبال ارائه راه حل‌هاي آنها باشيم. بنابراين شناسايي و اولويت بندي نيازها موضوعي است که بايد در ابتدا مورد توجه قرار گيرد. با توجه به اهميت استخراج نيازمندي‌ها و مديريت ارتباط با شهروند، پژوهش قابل توجهي در اين زمينه انجام نشده است. اکثر مقالات منتشر شده در اين زمينه نيز جنبه نظري و تئوري داشته و تعداد کمي از آنها به صورت کاربردي مفهوم مديريت ارتباط با شهروند را مورد بررسي قرار داده‌اند [2].
1-8 تعريف مسئله
با رشد و توسعه‌ي بازار فناوري اطلاعات اين موضوع به وضوح مشخص است که مشتريان و توسعه دهندگان از نظر جغرافيايي در سراسر کشور و جهان پراکنده مي‌باشند و در نتيجه روش‌هاي چون ملاقات‌هاي شخصي در بحث استخراج نيازمندي‌ها تقريباً غير ممکن است. علاوه بر اين، رشد اندازه و پيچيدگي سيستم‌هاي نرم‌افزاري و همچنين رشد رو به افزايش تعداد ذينفعان، مسئله‌ي مديريت و هماهنگي استخراج نيازها را در سازمان‌ها و سامانه‌هاي بزرگ مقياس روشن مي‌سازد [4-6]. در اين ميان تکنيک‌هاي سنتي مهندسي نيازمندي‌ها روش‌هايي اقتباس گرديده از مدل‌هاي متمرکزي هستند که استفاده از اين تکنيک‌ها در سامانه‌هاي بزرگ مقياس چالش برانگيز و زمانبر و گاهي ناممکن است.
در نتيجه لازم است تکنيک‌ها و يا ابزارهاي جديدي در راستاي پشتيباني از سازمان‌ها و يا سامانه‌هاي بزرگ مقياس در استخراج نيازمندي‌ها توسعه داده شوند که در اين خصوص رهيافت‌هاي جديد بايد داراي قابليت مقياس پذيري بالايي باشند. در اين راستا قصد داريم روش‌هاي پرکاربرد موجود در استخراج نيازمندي‌ها را اعم از روش‌هاي سنتي، استفاده از ابزارها و روش‌هاي نوين مورد بررسي و تجزيه و تحليل قرار داده و مزايا و معايب هر روش را تشريح کنيم. سپس به تکنيک‌هاي مورد استفاده در افزايش سطح رضايتمندي ذينفعان پرداخته تا بتوانيم در راستاي اهداف تحقيق از آنها بهره‌مند گرديم. در آخر با استفاده از تدبيري به ارائه چارچوبي جهت استخراج و اولويت بندي صحيح نيازمندي‌ها در سازمان‌هاي بزرگ مقياس بپردازيم.
1-9 فرضيه
نکته قابل توجه در بحث تعيين اندازه سازمان يا سامانه اين است که معيارهاي متفاوت و استانداردي در اين مورد ذکر گرديده است. از جمله‌ي اين معيارها مي‌توان به تعداد خطوط برنامه، زمان، هزينه و غيره اشاره نمود. اما قابل ذکر است در اين تحقيق منظور ما از سازمان‌ها و يا سامانه‌هاي بزرگ مقياس، آنهايي هستند که تعداد زيادي از ذينفعان را در بر مي‌گيرند. ذينفعان افرادي هستند که به هر نحو سطوحي از تأثيرات روي نيازمندي‌هاي آن سازمان و يا سامانه دارند. از نمونه‌ي اين سازمان‌ها مي‌توان به مرکز مديريت شهري 137 شهرداري تهران اشاره نمود که داراي پايگاه داده‌اي شامل ميليون‌ها رکورد از نيازهاي ثبت شده مردمي مي‌باشد.
1-10 اهداف تحقيق
اصلي‌ترين اهدافي که اين تحقيق پوشش مي‌دهد، عبارتند از:
بررسي مراحل لازم در استخراج نيازمندي‌ها
درک چگونگي برنامه ريزي و تعيين استراتژي استخراج نيازمندي‌ها
بررسي تکنيک‌هاي مطرح در استخراج نيازمندي‌ها به همراه نقاط ضعف و قوت آنها
ارائه چارچوبي در استخراج و اولويت بندي نيازمندي‌ها در سازمان‌ها و يا سامانه‌هاي بزرگ مقياس
ارزيابي چارچوب ارائه شده و بحث و نتيجه گيري
به طور کلي اين پايان نامه از پنج فصل تشکيل شده است. در فصل اول مقدمه‌اي بر مهندسي نيازمندي‌ها و اولين و مهم‌ترين فاز آن يعني استخراج نيازمندي‌ها ارائه خواهد شد. در فصل دوم به ادبيات موضوع و پيشينه تحقيق پرداخته خواهد شد. اين تحقيقات شامل پر کاربردترين و رايج‌ترين روش‌هاي استخراج نيازمندي‌ها در سه گروه 1. روش‌هاي سنتي، 2. استفاده از ابزارها و 3. روش‌هاي نوين استخراج نيازمندي‌ها مي‌باشد. در اين فصل نيز تلاش‌هايي که در جهت افزايش سطح رضايتمندي ذينفعان صورت گرفته مطرح و همچنين در ارتباط با نقاط ضعف و قوت تمامي اين روش‌ها بحث خواهد گرديد. در فصل سوم به ارائه چارچوب پيشنهادي در ارتباط با استخراج و اولويت بندي نيازمندي‌ها در سازمان‌هاي بزرگ مقياس به زبان فارسي مبتني بر نيازمندي‌هاي عملياتي و غير عملياتي پرداخته و در فصل چهارم در ارتباط با محاسبات و يافته‌هاي تحقيق به روش مطالعه ميداني و کتابخانه‌اي بحث خواهد گرديد. در فصل آخر يعني فصل پنجم به نتيجه گيري و پيشنهادات آتي پرداخته خواهد شد. پس از آن در پيوست، منابع و مآخذ و ضمايم همچنين چکيده انگليسي قابل دسترس است.
فصل دوم
ادبيات و پيشينه تحقيق
2-1 مقدمه
امروزه ميزان داده‌هاي در دسترس هر پنج سال دو برابر مي‌شود و سازماني تواناست که قادر باشد کمتر از 7% از اطلاعاتش را مديريت نمايد. بر اساس تحقيقات شرکت IBM سازمان‌ها کمتر از 1% از داده‌هايشان را براي تحليل استفاده مي‌نمايند. سازمان‌ها داده‌هاي تجاري زيادي را در تصرف خود دارند، در حالي که هنوز با فقدان دانش تجاري مواجه هستند. تقسيم بندي مشتريان، افزايش رضايت آنها و يا حتي بدست آوردن سهم بيشتري از بازار نسبت به رقبا با استفاده از ابزارهاي داده کاوي از کاربردهاي آن مي‌باشد [7]. با استفاده از داده کاوي مي‌توان به دانشي دست يافت که خود انسان قرن‌ها بعد اين دانش را کسب خواهد کرد. در حقيقت داده کاوي در زمينه‌هاي متعددي از قبيل پزشکي، بورس اوراق بهادار، هواشناسي، بازاريابي، تشخيص کلاه‌برداري‌هاي بانکي و بيمه‌اي، تجارت الکترونيک و … وجود دارد. خروجي همه‌ي اين زمينه‌ها بر اين اصل صحه مي‌گذارد که انسان به دلايل مختلف اعم از سرعت پردازشي، جهل داده‌اي، چگونگي پردازش و … نمي‌تواند نظم‌هاي پيچيده موجود در نهان داده‌هاي حجيم را شناسايي نمايد [8]. در محيط امروزي، سازمان‌هاي بسياري در تلاش هستند که فلج اطلاعات را شکست بدهند. در اين راستا داده کاوي سازماني6 به عنوان يک ابزاري مي‌باشد که مديران را قادر مي‌سازد تا سريع‌تر نسبت به آينده عمل نمايند، فعال باشند نسبت به اينکه واکنش پذير باشند، بدانند تا اينکه حدس بزنند. پر واضح است که با داشتن اين قابليت، سازمان‌ها قادرند دانش ارزشمندي را از داده‌هايشان بدست آورند [9]. در واقع علم داده کاوي انسان را قادر مي‌سازد که حجم عظيمي از داده‌ها را مورد پردازش عميق قرار دهد و کليه نظم‌هايي را که در عمق داده وجود دارند، همچون طلا در يک معدن طلا، به صورت دانشي با ارزش کشف کرده و جهت استفاده عرضه نمايد [8]. در اين فصل با مقدمات علم داده کاوي آشنا خواهيم شد و پس از آن به بررسي روش‌ها و تکنيک‌هاي استخراج نيازمندي‌ها پرداخته و در آخر سعي داريم پس از بررسي نقاط قوت و ضعف اين روش‌ها بخصوص در زبان فارسي به تبيين راهکار پيشنهادي خود بپردازيم.
2-2 انگيزه‌هاي کاوش داده
با توجه به مطالب مطرح شده، شايد بتوان اولين انگيزه کاوش داده را رشد روز افزون آن دانست. در واقع رشد داده به حدي است که تنها در صورت وجود ابزار مکانيزه براي بررسي آن مي‌توان اميدوار به استفاده از آن بود. زيرا در غير اينصورت همزمان با تحليل حجم کوچکي داده، حجم بسيار زيادي از همان داده در حال توليد شدن است که هرگز فرصتي براي کاوش آن وجود نخواهد داشت. به علاوه مشکلاتي ديگر که در ادامه اشاره شده‌اند وجود خواهند داشت:
معمولاً دانشي که در داده‌ها وجود دارد خيلي بديهي، روشن و واضح نيست.
تحليل‌گران انساني ممکن است هفته‌ها براي کشف اطلاعات با ارزش از داده وقت صرف کنند و گاهي اوقات ممکن است با صرف زمان زيادي لزوماً موفق هم نشوند.
گاهي اوقات با وجود امکان جمع آوري داده، اين کار انجام نمي‌شود. دليل عدم جمع آوري داده معمولاً عدم وجود دانش براي جمع آوري آن است. اينکه داده سرمايه يک سازمان است خود دانشي مهم و با ارزش است که هميشه وجود ندارد [8]!
2-2-1 انگيزه‌هاي تجاري
هنگاميکه مي‌خواهيم داده‌ها را از بعد تجاري مورد پردازش قرار دهيم نياز به داده‌هايي داريم که ماهيت تجاري داشته باشند. به طور کلي سه منبع براي جمع آوري داده‌هاي تجاري وجود دارند که عبارتند از: داده‌هاي وب و داده‌هاي تجارت الکترونيک، خريد و فروش‌هاي موجود در فروشگاه‌هاي خواربار فروشي/سوپر مارکت‌هاي زنجيره‌اي و تراکنش‌هاي بانکي/تراکنش‌هاي کارت‌هاي اعتباري.
به طور کلي منظور از داده‌هاي وب يا تجارت الکترونيک، داده‌هاي معمولي مثلاً داده‌هاي حاصل از جستجوهاي معمولي نيست بلکه منظور از اين داده‌ها تراکنش‌هايي است که همه روزه در اينترنت انجام شده و ثبت مي‌شوند و از آنجايي که اين داده‌ها زياد هستند ثبت آنها وقت زيادي مي‌گيرد. تعدادي از اين داده‌ها عبارتند از: خريد و فروش بليط‌هاي هواپيما، قطار، پرداخت قبوض و …
خريد و فروش‌هاي موجود در فروشگاه‌هاي خواربار فروشي/سوپر مارکت‌هاي زنجيره‌اي نوع مهم ديگري از داده‌هاي تجاري هستند. منظور از اين داده‌ها خريد و فروش‌هايي هستند که همه روزه در فروشگاه‌ها انجام مي‌شود و شامل کالاهايي است که در سبد خريد مشتري‌هاي مختلف صورت مي‌گيرد.
تراکنش‌هاي بانکي/تراکنش‌هاي کارت‌هاي اعتباري از ديگر داده‌هاي تجاري مي‌باشند که حجم عظيمي از داده‌ها را به صورت روزانه شامل مي‌شوند. منظور از اين داده‌ها، داده‌هاي مربوط به عمليات بانکي است که همه روزه توسط مشتريان مختلفي که به يک بانک مراجعه مي‌کنند، انجام شده و ثبت مي‌شوند. به عنوان مثال اطلاعات مربوط به اينکه يک مشتري پول به حساب خود واريز کرده، پول از حساب خود برداشت کرده و … در سيستم ثبت مي‌شود و از آنها به عنوان داده‌هاي مربوط به تراکنش‌هاي بانکي ياد مي‌شود. همچنين تراکنش‌هاي مربوط به کارت‌هاي اعتباري در اين مجموعه داده قرار مي‌گيرند، به عنوان مثال هر فردي که کارت‌هاي خود را وارد سيستم نموده و قصد انجام عملياتي را دارد اطلاعات مربوط به آن مشتري، کالا(هايي) را که قصد خريد آن(ها) را دارد، زماني که در حال خريد است، در سيستم ثبت مي‌شود و از آنها به عنوان داده‌هاي مربوط به تراکنش‌هاي کارت‌هاي اعتباري استفاده مي‌شود.
در واقع هدف اصلي از پردازش داده‌هاي تجاري دستيابي به سود بيشتر است. به عنوان مثال اگر داده‌هايمان از نوع داده‌هاي وب يا داده‌هاي تجارت الکترونيک باشند، مي‌توان از نتايج پردازش اين داده‌ها در طراحي ساختار صفحات وب و ايجاد تکنولوژي‌هايي که سود آوري بيشتري دارند استفاده کرد. اگر داده‌هاي مربوط به سبد خريد مشتريان را مورد پردازش قرار دهيم مي‌توانيم کالاهايي را که فروششان بيشتر است را شناسايي کنيم و آن کالاها را به ميزان بيشتري براي سوپر مارکت تهيه نماييم و يا اينکه مي‌توانيم بفهميم کدام کالاها معمولاً به همراه يکديگر خريداري مي‌شوند و در نتيجه آن کالاها را در چيدمان فروشگاه در کنار هم قرار دهيم تا خريد آنها براي مشتري راحت‌تر شده و مشتري براي خريد اجناس خود کمتر در فروشگاه حرکت کند و به اين ترتيب رضايت مشتري بيشتر جلب شود. اگر تراکنش‌هاي بانکي را پردازش مي‌توانيم اعتبار مشتري‌هاي مختلف را بسنجيم و روي مشترياني که ارزش سرمايه گذاري دارند سرمايه گذاري کنيم. به عنوان مثال به مشترياني که اعتبار بالاتري دارند وام بدهيم و به اين مشتريان براي سرمايه گذاري اعتماد کنيم.
در حوزه داده کاوي، شاخه علمي که بر روي بهبود سرويس دهي به مشتري تمرکز مي‌کند با نام مديريت ارتباط با مشتري7 شناخته مي‌شود. هدف اصلي در اين علم آن است که بتوانيم مشتري‌ها را اعتبار سنجي کنيم و بر اساس آن يک فرايندي را ايجاد کنيم که در اين فرايند به آن دسته از مشتريان که اعتبار بيشتري دارند، سرويس‌هاي بيشتر و به مشترياني که اعتبار کمتري دارند سرويس کمتري را ارائه بدهيم. هدف در داده کاوي اين است که اين فرايند اعتبار سنجي به صورت مکانيزه و هوشمند انجام شود [8].
2-2-2 انگيزه‌هاي علمي
هنگاميکه مي‌خواهيم داده‌ها را از بعد علمي مورد پردازش قرار دهيم نياز به داده‌هايي داريم که ماهيت علمي داشته باشند. به طور کلي چهار منبع عمده براي جمع آوري داده‌هاي علمي در حجم‌هاي بالا وجود دارند که عبارتند از: تصاوير ارسالي از طريق ماهواره‌ها، تصاوير ارسالي از تلسکوپ‌ها، داده‌هاي دنباله ژني و داده‌هاي حاصل از شبيه سازي علمي.
داده‌ها و تصاوير ارسالي از ماهواره‌ها شامل تصاويري مي‌باشند که از طريق حسگرهاي نصب شده بر روي ماهواره‌ها، همه روزه در حجم بسيار بالا به زمين مخابره مي‌شوند. اين داده‌ها و تصاوير از طريق سيگنال‌هاي ماهواره‌اي که در مکاني در مدار زمين قرار دارد، منتقل مي‌شوند.
تلسکوپ‌ها نيز همه روزه تصاويري را از زمين مي‌گيرند. اين تصاوير به صورت روزانه از طريق تلسکوپ‌ها ارسال مي‌شوند و شامل اطلاعات بسيار زيادي هستند.
داده‌هاي دنباله ژني، حاصل توصيف دنباله ژني افراد مختلف مي‌باشند و يکي از منابع داده‌اي بسيار مشهور با ماهيت علمي هستند. تکنيک‌هاي ميکرو آرايه، داده‌هاي دنباله ژني مربوط به يک بافت خاص را استخراج مي‌کنند. اين تکنيک‌ها با پردازش نوآورانه‌اي که روي بافت خاص از يک شخص (مثلاً کبد، معده، خون و …) انجام مي‌دهند مي‌توانند يک دنباله ژني منحصر به آن بافت را پيدا کنند که آن دنباله ژني حاوي اطلاعات بسياري است و تعداد زيادي ويژگي ايجاد مي‌کند. عموماً اين اعداد و ويژگي‌ها در تشخيص بيماري افراد، کمک قابل ملاحظه‌اي مي‌کنند.
داده‌هاي حاصل از شبيه سازي علمي منبع مهم ديگري از داده‌هاي علمي هستند. منظور از شبيه سازي علمي مدل سازي يک سيستم در ابعاد کوچکتر است. شبيه سازي وقتي مورد استفاده قرار مي‌گيرد که ما بتوانيم مکانيزم حاکم بر آن سيستم و محيط را به صورت يک مجموعه از قوانين بدانيم. ما مي‌توانيم سيستم‌ها و محيط‌هاي زيادي را شبيه سازي کنيم و اگر يک محيط شبيه سازي شده داشته باشيم، مي‌توانيم آزمايش‌هاي مختلفي را بر روي آن انجام دهيم و داده‌هاي زيادي را توليد کنيم که اين داده‌ها مي‌توانند اطلاعات زيادي را به ما منتقل دهند. به عنوان مثال مي‌توانيم بدن يک انسان را شبيه سازي نموده و داروهاي مختلف را روي آن امتحان کنيم و نتايج حاصل از آزمايشات را بدست آوريم. بخصوص اگر اين آزمايشات هزينه‌هاي سنگيني داشته باشند، شبيه سازي و نتايج حاصل از آن بسيار با ارزش خواهند بود. شبيه سازي در محيط‌هاي مختلف متفاوت است. چند نمونه از شبيه سازي عبارتند از: شبيه سازي يک آزمايش هسته‌اي، شبيه سازي زلزله و … به طور کلي اين شبيه سازي‌هاي علمي داده‌هاي بسيار حجيمي را فراهم مي‌کنند.
وقتي داده‌ها از نوع علمي باشند، معمولاً نتيجه مستقيم کاوش داده‌هاي علمي لزوماً به سود بيشتر منجر نمي‌شود، اما بيشتر اوقات منجر به ايجاد دانش جديد، دستاوردهاي جديد و نيز باعث خدمت رساني بيشتر به افراد و يا کشف حقايق خواهد شد. بنابراين مي‌توان نتيجه گرفت که انگيزه اصلي در پردازش داده‌هاي علمي کمک به بسط و گسترش مرزهاي دانش بشري در يک حوزه خاص مي‌باشد[8].
2-3 چالش‌هاي داده کاوي
شايد بتوان مهم‌ترين نقاط ضعف روش‌هاي داده کاوي را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافي بودن ويژگي‌ها. منظور از وجود داده اين است که اصولاً داده‌اي براي کاوش وجود داشته باشد و اينگونه نباشد که داده در محيط مورد کاوش استخراج و يا ثبت نشده باشد. متأسفانه اين مشکل در بسياري از محيط‌هاي واقعي وجود دارد. صحت داده مبين آن است که داده جمع آوري شده صحيح بوده و نادرستي در آن وجود نداشته باشد. به عنوان مثال نبايد جنسيت شخصي با نام “محسن” زن وارد شده باشد و يا اشتباهات ديگري که دليل وجودي آنها خطا در ورود داده است، رخ دهد. کافي بودن ويژگي‌ها بدين معناست که ويژگي‌هاي اخذ شده براي هر رکورد يا شئ براي يادگيري مدل و يا کشف نظم حاکم بر داده موثر، مناسب و کافي باشند. به عنوان مثال اگر هدف ما يادگيري يک مدل دسته بندي کننده براي تشخيص بيماري ديابت است، ثبت ويژگي قند خون بسيار مهم است در حالي که ثبت ويژگي ميزان تحصيلات اهميتي ندارد. توجه داشته باشيد اگر هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشد، هيچ يک از الگوريتم‌هاي داده کاوي، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هيچ شرايطي بيابند.
در داده کاوي مي‌توان چالش‌ها را به دو گروه اوليه و ثانويه تقسيم نمود. در ادامه به بررسي هر کدام از اين دو گروه مي‌پردازيم.
2-3-1 چالش‌هاي اوليه
چالش‌هاي اوليه که انگيزه مهم بکار گيري فرايند داده کاوي به جاي روش‌هاي سنتي تحليل داده‌ها هستند عبارتند از: حجيم بودن داده‌ها، ابعاد بالاي داده‌ها، طبيعت توزيع شده و ناهمگن داده‌ها. در ادامه به بررسي هرکدام از اين چالش‌ها مي‌پردازيم [8].
حجم بالاي داده‌ها: الگوريتم‌هاي داده کاوي با تعداد زيادي رکورد کار مي‌کنند و حجم زيادي از داده‌ها را پردازش مي‌کنند. به طور کلي هرچه تعداد رکوردهاي موجود بيشتر باشد باعث مي‌شود روش‌هاي سنتي نتوانند اين رکوردها را پردازش نمايند. اگر تعداد رکوردها کم باشد فرايند تحليل آنها بسيار ساده است و معمولاً احتياج به روش‌هاي داده کاوي نيست. هرچه تعداد رکوردها بيشتر باشد باعث مي‌شود علم داده کاوي بتواند کارکرد درخشان‌تري داشته باشد.
ابعاد بالاي داده‌ها: منظور از بعد همان فيلد يا ويژگي (خصيصه) مي‌باشد. به طور کلي هرچه تعداد ويژگي‌ها بيشتر باشد، باعث خواهد شد که تحليل داده‌ها مشکل‌تر شود. هرچه تعداد ويژگي‌هاي موجود در داده‌ها بيشتر باشد، نمي‌توان با استفاده از روش‌هاي سنتي بين آنها نظمي پيدا کرد. اين در حالي است که در اينگونه مواقع الگوريتم‌هاي داده کاوي مي‌توانند اثر بخشي و توان بالقوه‌اي که دارا هستند را نشان بدهند.
طبيعت توزيع شده داده‌ها: به طور کلي طبيعت توزيع شده داده‌ها و وجود داده‌ها در منابع پراکنده باعث مي‌شود نتوانيم از روش‌هاي سنتي براي پردازش داده‌ها استفاده کنيم. در اين مواقع به روش‌هاي داده کاوي نياز داريم. اين روش‌ها بايد قادر باشند داده‌هايي را که در مکان‌هاي مختلف ذخيره شده‌اند، به گونه‌اي مديريت کنند که دانش نهفته را از نهان اين داده‌هاي پراکنده و توزيع شده استخراج کنند.
طبيعت ناهمگن داده‌ها: در انباره داده‌اي که به عنوان مخزن فرايند داده کاوي عمل مي‌کند، انواع مختلفي از ويژگي‌ها وجود دارد. هر ويژگي محدوده مقادير مشخص و ويژه‌اي اختيار مي‌کند. کمينه و بيشينه مقادير مربوط به بعضي ويژگي‌ها با هم فرق دارند. بعضي ويژگي‌ها حوزه مقداري بسيار وسيع و بعضي ديگر حوزه محدودي دارند. در اين مواقع مي‌توان از مباحث نرمال سازي براي بخورد با اين مشکل استفاده کرد. اما مسائل ديگري در ارتباط با ويژگي‌ها نيز وجود دارد. به عنوان مثال بعضي ويژگي‌ها عددي (صحيح يا حقيقي) هستند، بعضي دودويي، بعضي ديگر اسمي (مانند رنگ چشم) هستند. بعضي از ويژگي‌ها نيز به گونه‌اي هستند که در مورد آنها تنها مي‌توان گفت آيا با هم مساوي هستند يا خير(مانند رنگ چشم)، گونه‌اي ديگر از ويژگي‌ها به اين



قیمت: تومان


پاسخ دهید