دانشـكده مهندسـي
پايان‌نامه كارشناسي ارشد در رشته مهندسي کامپيوتر (نرم افزار)
مدلي کارا براي ساخت پيکره متني موازي از روي پيکره متني تطبيقي
توسط:
عليمه زاري
استاد راهنما:
دكتر محمدهادي صدرالديني
زمستان 1392
ب
بـه نـام خـدا
اظهارنامه
اينجانب عليمه زاري (901313) دانشجوي رشتهي مهندسي کامپيوتر گرايش نرم افزار دانشکدهي مهندسي اظهار ميكنم كه اين پاياننامه حاصل پژوهش خودم بوده و در جاهايي كه از منابع ديگران استفاده كردهام، نشاني دقيق و مشخصات كامل آن را نوشتهام. همچنين اظهار ميكنم كه تحقيق و موضوع پاياننامهام تكراري نيست و تعهد مي‌نمايم كه بدون مجوز دانشگاه دستاوردهاي آن را منتشر ننموده و يا در اختيار غير قرار ندهم. كليه حقوق اين اثر مطابق با آييننامه مالكيت فكري و معنوي متعلق به دانشگاه شيراز است.
نام و نام خانوادگي: عليمه زاري
تاريخ و امضا:
تقديم
به
پدر و مادر عزيزم
سپاسگزاري
پيش از هر چيز از خداوند متعال به خاطر تمامي نعمت‌هايي که هديه کرده سپاسگزارم. از اساتيد ارجمند، جناب آقاي دکتر محمدهادي صدرالديني و جناب آقاي دکتر سيدمصطفي فخراحمد که در طول انجام اين پروژه همواره مشوق و راهنماي من بوده‌اند، صميمانه تشکر و قدرداني مي‌نمايم. همچنين از اعضاي خانواده‌ام که در تمام دوران تحصيل با روي همواره گشاده مرا ياري کرده‌اند نيز سپاسگزارم.
چکيده
مدلي کارا براي ساخت پيکره متني موازي از روي پيکره متني تطبيقي
به کوشش
عليمه زاري
اغلب رويکردهاي نوين ترجمه در حوزه ترجمه ماشيني از جمله ترجمه ماشيني آماري، ترجمه ماشيني مبتني بر مثال و ترجمه ماشيني ترکيبي از مجموعه متون هم‌ترجمه تحت عنوان پيکره‌هاي متني موازي به عنوان داده آموزشي اصلي استفاده مي‌کنند. اما براي اغلب زبان‌ها پيکره‌هاي موازي به ميزان بسيار کمي در دسترس هستند و يا مربوط به دامنه خاصي از نوشتجات مي‌شوند. در طرف ديگر پيکره‌هاي تطبيقي قرار دارند که مواد اوليه آنها به راحتي به دست مي‌آيد. پيکره‌هاي تطبيقي شامل متون هم‌ترجمه نيستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معيارهايي چون محتوا، تاريخ انتشار، عنوان و … با يکديگر قابل تطبيق هستند.
پيکره‌هاي تطبيقي شامل جملاتي هستند که مي‌توانند ترجمه خوبي براي يکديگر باشند. هدف اين رساله ساخت خودکار پيکره موازي با استخراج اينگونه جملات از پيکره تطبيقي است. مدلي که در اين پژوهش ارائه مي‌شود از سه مرحله اصلي تشکيل مي‌شود: (1) انتخاب جفت جملات کانديداي موازي بودن با استفاده از فيلتر نسبت طول جملات و فيلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازي با استفاده از طبقه‌بند آنتروپي بيشينه و در نظر گرفتن ويژگي‌هاي مربوط به طول دو جمله، کلمات مشترک آنها و ويژگي‌هاي مبتني بر همترازي در سطح کلمه بين دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها يکي از جملات جفت شده با هر جمله. اين کار را مي‌توان بوسيله محاسبه نزديکي آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معيار TER و انتخاب نزديک‌ترين جمله انجام داد.
در انتها کارآيي مدل ارائه شده در دو بخش (1) ارزيابي طبقه‌بند آنتروپي بيشينه طراحي شده و (2) ارزيابي ميزان سودمندي جفت جملات موازي استخراج شده در بهبود کيفيت ترجمه ماشيني بررسي مي‌شود.
فهرست مطالب
عنوان صفحه
1. مقدمه2
1-1. مقدمه2
1-1-1. ترجمه ماشيني مبتني بر فرهنگ لغت3
1-1-2. ترجمه ماشيني مبتني بر قانون4
1-1-3. ترجمه ماشيني مبتني بر دانش5
1-1-4. ترجمه ماشيني مبتني بر پيکره5
ترجمه ماشيني آماري6
ترجمه ماشيني مبتني بر مثال6
ترجمه ماشيني مبتني بر متن7
1-2. ضرورت ساخت پيکره موازي7
1-3. مسئله تحقيق: ساخت پيکره موازي9
1-4. هدف تحقيق: ساخت پيکره موازي از روي پيکره تطبيقي10
1-5. سرفصل‌ها10
1-5-1. فصل دوم: مباني نظري10
1-5-2. فصل سوم: مروري بر تحقيقات انجام شده11
1-5-3. فصل چهارم: مدل پيشنهادي11
1-5-4. فصل پنجم: ارزيابي و نتيجه گيري12
2. مباني نظري14
2-1. پيکره14
2-1-1. پيکره موازي15
2-1-2. پيکره تطبيقي17
2-2. همترازي18
2-2-1. همترازي در سطح سند19
2-2-2. همترازي در سطح جمله19
2-2-3. همترازي در سطح کلمه (همترازي لغوي)21
همترازي لغوي با استفاده از مدل‌هاي آي‌بي‌ام22
2-3. ارزيابي ترجمه ماشيني23
2-3-1. بلو23
2-3-2. متريک NIST24
2-3-3. نرخ خطاي کلمه24
2-3-4. نرخ خطاي ترجمه (TER)25
3. مروري بر تحقيقات انجام شده28
3-1. مقدمه28
3-2. ساخت پيکره موازي از روي متون هم‌ترجمه28
3-3. استخراج جملات موازي از وب30
3-4. استخراج جملات موازي از پيکره‌هاي تطبيقي32
3-5. تشخيص جملات موازي با استفاده از طبقه‌بند آنتروپي بيشينه34
3-6. ساخت پيکره موازي انگليسي – فارسي36
4. مدل پيشنهادي39
4-1. مقدمه39
4-2. انتخاب جفت جملات کانديد موازي بودن40
4-2-1. فيلتر کلمات مشترک41
تبديل کدگذاري کاراکترها42
مشخص کردن مرز جمله‌ها و کلمه‌ها43
ريشه‌يابي44
حذف کلمات پرتکرار45
رفع ابهام45
جستجوي معاني از ديکشنري46
گروه بندي کلمات تکراري جمله به همراه تعداد رخدادشان در جمله46
الگوريتم يافتن نرخ کلمات مشترک (از طرف مبدأ)47
4-3. انتخاب جفت جملات موازي از بين جفت جملات کانديد48
4-3-1. طبقه‌بند آنتروپي بيشينه48
4-3-2. ويژگي‌هاي عمومي49
ويژگي‌هاي مبتني بر طول دو جمله49
نرخ کلمات مشترک50
4-3-3. ويژگي‌هاي مبتني بر همترازي در سطح کلمه يک جفت جمله50
کلمات همتراز نشده50
باروري51
محدوده پيوسته52
نمره همترازي53
4-4. بالا بردن دقت جفت جملات موازي استخراج شده54
4-5. شيوه ارزيابي مدل55
5. ارزيابي و نتيجه گيري58
5-1. ارزيابي طبقه‌بند آنتروپي بيشينه58
5-1-1. ارزيابي ويژگي‌ها58
5-1-2. حساسيت به دامنه60
5-2. تنظيمات و آزمايشات ساخت پيکره موازي از پيکره تطبيقي63
5-2-1. پيکره تطبيقي مورد استفاده63
پيکره تطبيقي فارسي – انگليسي دانشگاه تهران (UTPECC)63
پيکره تطبيقي گرفته شده از مقالات ويکي پديا65
5-2-2. پارامترهاي تنظيم شده و ابزار مورد استفاده66
انتخاب جفت جملات کانديد:66
انتخاب جفت جملات موازي:68
بالا بردن دقت جفت جملات استخراج شده:69
5-2-3. ارزيابي جملات موازي استخراج شده با استفاده از ماشين ترجمه69
5-3. نتيجه گيري72
5-4. پيشنهادات آينده75
فهرست جداول
عنوان صفحه
جدول 5-1. مجموعه ويژگي‌ها59
جدول 5-2. ارزيابي مجموعه ويژگي‌ها59
جدول 5-3. حساسيت کارآيي طبقه‌بند به دامنه داده‌هاي آموزشي و آزمايشي61
جدول 5-4. کارآيي طبقه‌بند در برابر داده‌هاي آزمايشي و آموزشي با دامنه‌هاي مختلف62
جدول 5-5. شرح پيکره‌هاي آموزشي مورد استفاده در هر اجرا70
جدول 5-6. نمره بلوي به دست آمده به ازاي پيکره‌هاي آموزشي متفاوت71
جدول 5-7. نمره بلوي به دست آمده به ازاي پيکره‌هاي آموزشي متفاوت72
جدول 5-8.ارزيابي ماشين‌ترجمه ساخته شده با پيکره‌هاي آموزشي متفاوت در قالب نرخ n-gram‌ هاي مشترک72
فهرست شکل‌ها
عنوان صفحه
شکل 1-1. دسته‌بندي روش‌هاي ترجمه ماشيني3
شکل 2-1. نمونه‌اي از دو متن همتراز شده در سطح جمله20
شکل 2-2. همترازي لغوي بين دو جمله فارسي و انگليسي در شکل گراف دو بخشي21
شکل 2-3. همترازي لغوي بين دو جمله فارسي و انگليسي در شکل جدول همترازي21
شکل 2-4. مثالي از نحوه محاسبه نمره TER25
شکل 4-1. شماي کلي مدل توليد پيکره موازي از روي پيکره تطبيقي40
شکل 4-2. کلمات مشترک بين دو جمله فارسي و انگليسي41
شکل 4-3. الگوريتم يافتن نرخ کلمات مشترک47
شکل 4-4. همترازي در سطح کلمه بين دو جمله غيرموازي52
شکل 4-5. همترازي در سطح کلمه بين دو جمله موازي53
شکل 4-6. فرآيند ارزيابي جفت جملات موازي استخراج شده56
شکل 5-1. نمونه‌اي از سه سند خبري جفت شده در پيکره تطبيقي فارسي-انگليسي دانشگاه تهران64
شکل 5-2. کلمات پرتکرار انگليسي67
فصل اول
مقدمه
مقدمه
مقدمه
به دليل افزايش ارتباطات متقابل منطقه‌اي و نياز براي تبادل اطلاعات، تقاضا براي ترجمه زبان بسيار افزايش يافته است. بسياري از نوشتجات نياز به ترجمه دارند از جمله مستندات علمي و فني، دستورالعمل‌هاي راهنما، مستندات حقوقي، کتاب‌هاي درسي، بروشورهاي تبليغاتي، اخبار روزنامه‌ها و غيره؛ که ترجمه برخي از آنها سخت و چالش برانگيز است اما اکثرا خسته کننده و تکراري هستند و در عين حال به انسجام و دقت نياز دارند. برآوردن نيازهاي روز افزون ترجمه براي مترجمان حرفه‌اي دشوار است. در چنين موقعيتي ترجمه ماشيني مي‌تواند به عنوان يک جايگزين به کار گرفته شود.
ترجمه ماشيني بعد از 65 سال يکي از قديمي‌ترين کاربردهاي کامپيوتر است. در طول سال‌ها، ترجمه ماشيني مرکز توجه تحقيقات زبان‌شناسان، روان‌شناسان، فيلسوفان، دانشمندان و مهندسان علم کامپيوتر بوده است. اغراق نيست اگر بگوييم کارهاي جديد در حوزه ترجمه ماشيني، به طور قابل ملاحظه‌اي در توسعه زمينه‌هايي نظير زبان شناسي رايانه‌اي، هوش مصنوعي و پردازش زبان‌هاي طبيعي برنامه‌گرا، مشارکت کرده است.
ترجمه ماشيني را مي‌توان به اين صورت تعريف کرد: “ترجمه از يک زبان طبيعي (زبان مبدأ) به زبان ديگر (زبان مقصد) با استفاده از سيستم‌هاي کامپيوتري شده و به همراه يا بدون کمک انسان”. کار پژوهشي در حوزه ترجمه ماشيني به هدف بزرگ ترجمه تمام خودکار با کيفيت بالا (قابل نشر) محدود نمي‌شود. غالبا ترجمه‌هاي ناهموار براي بازبيني موضوعات خارجي کافي است. تلاش‌هاي اخير، در جهت ساخت کاربردهاي محدودي در ترکيب با تشخيص گفتار به خصوص براي دستگاه‌هاي دستي مي‌باشند. ترجمه ماشيني مي‌تواند به عنوان پايه‌اي براي ويرايش‌هاي بعدي به کار گرفته شود، مترجم‌ها معمولا با ابزارهايي نظير حافظه‌هاي ترجمه که از فناوري ترجمه ماشيني استفاده مي‌کنند اما آنها را در کنترل خود قرار مي‌دهند، استفاده مي‌کنند.
ترجمه ماشيني يکي از حوزه‌هاي پژوهشي “زبانشناسي رايانه‌اي” است. تا کنون روش‌هاي مختلفي جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشيني به صورت‌هاي مختلفي دسته‌بندي شده‌اند. شکل 1-1 انواع روش‌هاي ترجمه ماشيني موجود را در قالب دسته‌بندي که در [1] آمده است نشان مي‌دهد.
دسته‌بندي روش‌هاي ترجمه ماشيني
ترجمه ماشيني مبتني بر فرهنگ لغت1
اين نوع ترجمه ماشيني مبتني بر مدخل‌هاي فرهنگ لغت است؛ و در آن از معادل کلمه جهت توليد ترجمه استفاده مي‌شود. اولين نسل ترجمه ماشيني (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبناي فرهنگ لغت‌هاي الکترونيک بودند. اين روش همچنان تا حدي در ترجمه عبارات و نه جملات مفيد است. اکثر روش‌هايي که بعدا توسعه داده شدند کم يا بيش از فرهنگ لغات دوزبانه بهره مي‌گيرند [1].
ترجمه ماشيني مبتني بر قانون2
ترجمه ماشيني مبتني بر قانون با اطلاعات ريخت شناسي، نحوي و معنايي زبان‌هاي مبدأ و مقصد سر و کار دارد. قوانين زباني از اين اطلاعات ساخته مي‌شوند. اين روش مي‌تواند با پديده‌هاي مختلف زباني مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتي به اين سيستم مي‌افزايد. همچنين فرآيند پژوهشي آن نياز به سرمايه‌گذاري زيادي دارد. هدف ترجمه ماشيني مبتني بر قانون تبديل ساختارهاي زبان مبدأ به ساختارهاي زبان مقصد است. اين روش رويکردهاي مختلفي دارد.
رويکرد مستقيم3: کلمات زبان مبدأ بدون عبور از يک نمايش مياني ترجمه مي‌شوند. در اين روش به بستر متن، معني و دامنه توجه نمي‌شود.
رويکرد انتقالي4: مدل انتقالي متعلق به نسل دوم ترجمه ماشيني است (از اواسط دهه 1960 تا دهه 1980). در اين مدل، زبان مبدأ به يک انتزاع که نمايشي کمتر مختص به زبان است، انتقال مي‌يابد. سپس يک نمايش معادل براي زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانين گرامري توليد مي‌شود.
ميان زباني5: اين روش متعلق به نسل سوم ترجمه ماشيني است. در اين روش زبان مبدأ به يک زبان (نمايش) مياني تغيير شکل مي‌دهد که اين زبان مياني مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه براي زبان مقصد از اين نمايش کمکي به دست مي‌آيد. از اينرو در اين نوع سيستم تنها به دو ماژول تجزيه و ترکيب نياز است. همچينن به دليل مستقل بودن اين روش از زبان‌هاي مبدأ و مقصد، بيشتر در ماشين‌هاي ترجمه چندزبانه استفاده مي‌شود. اين روش بر يک نمايش واحد از زبان‌هاي مختلف تأکيد مي‌کند.
ترجمه ماشيني مبتني بر دانش6
اين روش با واژه‌نامه‌اي مفهومي‌که يک دامنه را نشان مي‌دهد سر و کار دارد. اين روش شامل دو مرحله تحليل و توليد است. اجزاي پايه‌اي يک ماشين ترجمه مبتني بر دانش عبارتند از يک آنتولوژي از مفاهيم، واژه‌نامه و گرامر زبان مبدأ براي فرآيند تحليل، واژه‌نامه و گرامر براي زبان مقصد و قوانين نگاشت بين نحو زبان مياني و زبان‌هاي مبدأ و مقصد.
ترجمه ماشيني مبتني بر پيکره7
رويکرد ترجمه ماشيني مبتني بر پيکره‌هاي متني از سال 1989 ظهور پيدا کرد و به طور وسيعي در حوزه ترجمه ماشيني به آن پرداخته شد؛ و به دليل دقت بالاي اين روش در ترجمه، بر ديگر روش‌ها غلبه يافت. در اين روش، دانش يا مدل ترجمه به طور خودکار از پيکره‌هاي متني (مجموعه متون) دوزبانه گرفته مي‌شود. از آنجايي که اين رويکرد با حجم زيادي از داده‌ها کار مي‌کند، ترجمه ماشيني مبتني بر پيکره ناميده شده است. برخي از انواع روش‌هاي مبتني بر پيکره در ادامه شرح داده مي‌شوند.
ترجمه ماشيني آماري8
با اينکه ايده اوليه ترجمه ماشيني آماري توسط وارن ويور در سال 1941 معرفي شد، اما از سال 1993 که اين روش توسط محققان آي بي ام مدل شد به طور گسترده‌اي مورد استفاده قرار گرفت؛ به طوري‌که در حال حاضر ترجمه ماشيني آماري رايج‌ترين رويکرد در ترجمه ماشيني به شمار مي‌آيد. در روش ترجمه ماشيني آماري از مدل‌هاي آماري استفاده مي‌شود که پارامترهاي اين مدل‌ها از متون دوزبانه يا همان “پيکره‌هاي موازي” استخراج مي‌شوند. به عبارت ديگر سيستم ترجمه ماشيني آماري، احتمالات ترجمه را از پيکره موازي مي‌آموزد و با استفاده از اين احتمالات براي جملات ورودي که در فرآيند آموزش ديده نشده‌اند، ترجمه‌اي مناسب توليد مي‌کند. در اين روش از دو مدل عمده به نام مدل‌هاي مبتني بر کلمه و مدل‌هاي مبتني بر عبارت استفاده مي‌شود.
ترجمه ماشيني مبتني بر مثال9
روشهاي ترجمه ماشيني مبتني بر مثال، روشهاي مبتني بر حافظه10 نيز ناميده شده‌اند. ايده اين روش از سال 1980 در ژاپن شروع شد. اين نوع سيستم‌ها تلاش مي‌کنند تا جمله‌اي مشابه جمله ورودي در پيکره موازي پيدا کنند، و سپس با اِعمال تغييراتي بر روي جمله ترجمه شده که قبلا ذخيره شده، ترجمه جمله ورودي را توليد کنند.
ايده اوليه در اين روش، استفاده از ترجمه‌هاي انساني موجود براي ترجمه متن‌هاي جديد است. لذا کافي است متون جديد به قطعه‌هاي کوچک شکسته شود و ترجمه معادل اين قطعات، در پايگاه داده‌اي از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر توليد گردد. اين روش داراي محدوديت دادگان مي‌باشد. جمع‌آوري مجموعه مثال‌هاي بسيار بزرگ نيز کل زبان را پوشش نمي دهد. بنابراين معمولا اين روش براي زير مجموعه‌هاي محدودي از يک زبان استفاده مي‌شود.
ترجمه ماشيني مبتني بر متن11
ترجمه ماشيني مبتني بر متن نوعي از ترجمه ماشيني مبتني بر پيکره است که نه به قوانين و نه به پيکره‌هاي موازي نياز دارد. در عوض اين روش براي اجراي الگوريتم خود به يک پيکره عظيمي از متون تک زبانه (به زبان مقصد)، يک فرهنگ لغت دوزبانه کامل و به صورت اختياري يک پيکره تک زبانه از متون مبدأ (جهت بهبود کيفيت ترجمه) نياز دارد. اين روش يک رويکرد جديد براي ترجمه‌هاي ماشيني مبتني بر پيکره است.
ضرورت ساخت پيکره موازي
در طول چند قرن گذشته، ماشين‌ها در بسياري از کارهاي انسان به کار گرفته شده‌اند، و اخيرا با ظهور کامپيوترهاي ديجيتالي حتي کارهايي که نياز به فکر و هوش دارند توسط ماشين‌ها انجام مي‌شود. ترجمه بين زبان‌ها نيز يکي از اين کارهاست، کاري که حتي انسان‌ها هم براي انجام آن نياز به آموزش‌هاي ويژه دارند.
ترجمه ماشيني سابقه بسيار طولاني دارد، اما در يکي دو دهه اخير تحولش در مسير جديدي صورت گرفت- مسيري که در ديگر رشته‌هاي وابسته به پردازش زبان‌هاي طبيعي منعکس شده است. اين مسير جديد بر اين فرض مبتني است که زبان بسيار غني و پيچيده است، در نتيجه هيچ گاه نمي توان زبان را به طور کامل در قالب مجموعه‌اي از قوانين -که بصورت يک برنامه کامپيوتري کد شده در مي‌آيد- خلاصه کرده و تجزيه و تحليل کرد. در عوض، مسير جديد در جهت توسعه يک ماشين است که قوانين ترجمه را به طور خودکار از يک پيکره بزرگ از متون ترجمه شده کشف مي‌کند، و اين کار را با جفت کردن ورودي و خروجي فرآيند ترجمه و با يادگيري از روي آمارهاي مربوط به داده‌ها انجام مي‌دهد.
ترجمه ماشيني آماري شتاب فوق العاده‌اي را هم در جامعه پژوهشي و هم در بخش تجاري به دست آورده است. نزديک به يک هزار مقاله آکادميک بر روي اين موضوع منتشر شده است که حدود نيمي از آن تنها مربوط به سه سال گذشته است. در همين زمان، سيستم‌هاي ترجمه ماشيني آماري راهشان را در بازار کار پيدا کرده‌اند، از زبان ويور، اولين شرکت ترجمه آماري محض گرفته تا سيستم‌هاي آنلاين آزاد گوگل و مايکروسافت.
همانطور که گفته شد، مرز دانش در ترجمه ماشيني برپايه رويکردهاي آماري است که يک فرآيند داده محور است. در نگاه به ترجمه به عنوان يک مسئله يادگيري ماشين، الگوريتم ترجمه ماشيني آماري قوانين ترجمه را از متون ترجمه شده قبلي ياد مي‌گيرد [2]. بنابراين کارآيي سيستم به شدت به کيفيت و کميت پيکره مورد استفاده براي يادگيري بستگي دارد. عموما، متن‌هاي دوزبانه بزرگ‌تر منجر به کارآيي بيشتر مي‌شوند. سيستم‌هاي ترجمه ماشيني آماري از متن‌هاي دوزبانه موازي براي مدل ترجمه و از پيکره‌هاي تک زبانه براي مدل کردن زبان مقصد به عنوان مواد آموزشي استفاده مي‌کنند. برخلاف اينکه داده‌هاي تک زبانه کافي براي اکثر زبان‌ها وجود دارد، داده‌هاي موازي بسيار کمياب هستند.
ثابت شده است که پيکره متني، يک منبع ضروري براي ترجمه ماشيني آماري است [3,4] همانطور که براي ديگر برنامه‌هاي کاربردي پردازش زبان‌هاي طبيعي از جمله براي ساخت و توسعه واژه‌نامه‌هاي دوزبانه و مجموعه اصطلاحات دوزبانه ضروري مي‌باشد. با اين حال غير از تعداد کمي از زبان‌ها مانند فرانسوي-انگليسي، انگليسي-عربي و انگليسي-چيني و زمينه‌هاي معدودي از جمله مذاکرات پارلماني و متون حقوقي، مانند شرح مذاکرات مجلس کانادا يا اروپا [5]، و يا سازمان ملل متحد، منابع کمي باقي مي‌ماند، که اغلب به دليل هزينه‌هاي انساني و مالي است که براي توليدشان نياز است. بعلاوه اصطلاحات مخصوص صنفي به کاررفته در اينگونه پيکره‌ها براي ترجمه‌هاي روزمره و يا ترجمه در ديگر زمينه‌ها مناسب نيستند؛ بنابراين نياز شديدي براي پيکره‌هاي موازي بيشتر که مناسب ترجمه‌هاي منطبق بر دامنه هستند احساس مي‌شود.
پيکره موازي براي ترجمه ماشيني بايد در اندازه بسيار زياد باشد – بيليون‌ها جمله – تا بتواند موثر باشد. و به همين دليل است که در زبان فارسي با مشکل روبه رو هستيم. به دليل کمبود شديد مواد زباني ذخيره شده بصورت ديجيتال و مستندات موازي برخط، ساخت پيکره موازي فارسي بسيار سخت است [6].
مسئله تحقيق: ساخت پيکره موازي
همانطور که گفته شد ترجمه ماشيني آماري رايج‌ترين رويکرد ترجمه ماشيني در حال حاضر است. از طرفي پيکره‌هاي موازي اصلي‌ترين منابع براي ترجمه ماشيني آماري هستند، اما اين در حالي است که اکثريت زبان‌هاي طبيعي با کمبود اين منابع مهم روبه‌رو هستند. از اينرو تلاش براي ساخت پيکره‌هاي موازي جهت بهبود ترجمه ماشيني ضروري به نظر مي‌رسد.
يک راه براي غلبه بر اين کمبود منابع، توليد ترجمه‌هاي انساني بيشتر است، اما اين يک گزينه بسيار پرهزينه است، هم از نظر زمان و هم از نظر مالي؛ اما با اين حال به دليل اهميت بسيار زياد پيکره‌هاي موازي براي ترجمه ماشيني برخي از پيکره‌هاي موازي از اين طريق ساخته شده‌اند [7]. راه ديگر استفاده از متون از قبل ترجمه شده است از جمله کتاب‌هاي ترجمه شده الکترونيکي [8] و يا کتابچه‌هاي راهنماي چندزبانه الکترونيکي [9]، اما تعداد اينگونه منابع الکترونيکي به خصوص براي زبان فارسي بسيار کم است. گزارشات پارلماني و متون حقوقي مانند شرح مذاکرات پارلماني سازمان ملل متحد، اروپا و کانادا نيز از اصلي‌ترين نوع منابع از قبل ترجمه شده براي توليد پيکره‌هاي موازي محسوب مي‌شوند که زبان فارسي فاقد اين گونه منابع است. در برخي تلاش‌ها جهت ساخت پيکره موازي از زيرنويس فيلم‌ها استفاده شده است [10][11] اما به دليل اينکه زيرنويس فيلم‌ها به زبان محاوره‌اي هستند، پيکره‌هاي ساخته شده از آنها نويزي بوده و در همه زمينه‌ها قابل استفاده نيستند. وب نيز مي‌تواند براي بدست آوردن جملات موازي پيمايش شود [9,12,13,14]، اگرچه اکثر متون دوزبانه يافت شده اغلب ترجمه دقيق هم نيستند و بنابراين همترازي آنها آسان نيست.
در کارهاي اخير، روش‌هاي کم هزينه‌تر اما پربارتري براي توليد اينگونه پيکره‌هاي دوزبانه همتراز شده در سطح جمله ارائه شده است، که بر پايه استخراج متون موازي از متون ” تقريبا موازي” و يا “نه خيلي موازي” مي‌باشند که اينگونه متون اغلب در دسترس هستند و اصطلاح “پيکره تطبيقي” براي آنها به کار مي‌رود.
هدف تحقيق: ساخت پيکره موازي از روي پيکره تطبيقي
يک پيکره تطبيقي مجموعه‌اي از متن‌هاست که به طور جداگانه در زبان‌هاي مربوطه ساخته شده‌اند و بر پايه شباهت محتوي ترکيب شده‌اند. اين‌ها مستنداتي از يک به چند زبان هستند که از نظر شکل و محتوي در ابعاد و درجات مختلف قابل مقايسه هستند. بر عکس، يک پيکره موازي شامل متن‌هاي دو يا چند زبانه است که ترجمه دقيق همديگر بوده و در سطح جمله همتراز شده‌اند.
مواد اوليه براي مستندات تطبيقي اغلب آسان بدست مي‌آيد، اما همترازي تک تک مستندات يک کار چالش بر انگيز است[15]. منابع بالقوه براي پيکره‌هاي تطبيقي، آژانس‌هاي خبري چندزبانه مانند AFP و BBC و …، و يا دايره المعارف‌هاي چندزبانه مانند ويکي پديا و Encarta هستند. برخي از اين پيکره‌هاي تطبيقي به طور گسترده از طريق LDC در دسترس هستند. اينگونه منابع اغلب شامل جملاتي هستند که ترجمه‌هاي مناسبي از يکديگرند. شناسايي مطمئن اين جفت جمله‌ها، ساخت خودکار پيکره‌هاي موازي گوناگون را ممکن مي‌سازد.
در اين پايان نامه نيز روش‌هاي استفاده شده براي استخراج جملات موازي از پيکره‌هاي تطبيقي که براي جفت زبان‌هاي ديگر آمده‌اند، مورد بررسي قرار مي‌گيرند؛ و از آن‌ها براي ساخت يک پيکره موازي از روي پيکره تطبيقي انگليسي -فارسي استفاده مي‌شود.
سرفصل‌ها
فصل دوم: مباني نظري
در اين فصل مباني نظري ترجمه ماشيني و اصطلاحات به کار رفته در اين پايان نامه را شرح مي‌دهيم. در ابتدا پيکره را معرفي کرده و به بحث درباره انواع آن از جمله پيکره موازي و پيکره تطبيقي مي‌پردازيم. در بخش بعد مبحث همترازي را عنوان کرده و انواع آن را معرفي مي‌کنيم، که عبارتند از همترازي در سطح سند، همترازي در سطح جمله و همترازي در سطح لغت. در انتها ارزيابي ترجمه ماشيني آورده مي‌شود و چند نمونه از معيارهاي ارزيابي ترجمه ماشيني مانند BLEU، NIST، WER و TER شرح داده مي‌شوند.
فصل سوم: مروري بر تحقيقات انجام شده
ساخت پيکره موازي يکي از مهمترين مباحث در حوزه ترجمه ماشيني است. از اينرو تا کنون کارهاي زيادي در اين شاخه از ترجمه ماشيني انجام شده است که هر کدام سعي داشته‌اند قدمي هر چند کوتاه براي غلبه بر چالش بزرگ کمبود متون موازي بردارند. برخي از کارها سعي بر توليد پيکره موازي از متون ترجمه شده مانند کتاب‌هاي دوزبانه، کتابچه‌هاي راهنما، متون حقوقي و شرح مذاکرات پارلماني اروپا و غيره دارند. اما اينگونه منابع محدود هستند؛ از اينرو در سالهاي اخير محققان بر استخراج متون موازي از متون دوزبانه موجود در وب و يا پيکره‌هاي تطبيقي تمرکز دارند. در اين فصل کارهاي پيشين انجام شده از هر کدام از روش‌هاي ساخت پيکره مانند ساخت پيکره موازي از متون همراه با ترجمه، استخراج جملات موازي از وب و استخراج جملات موازي از پيکره‌هاي تطبيقي، آورده مي‌شود. در پايان نيز کارهايي که رويکرد مشابهي با رويکرد اين رساله دارند و از طبقه‌بند آنتروپي بيشينه براي استخراج جملات موازي استفاده کرده‌اند، به طور مفصل تري شرح داده مي‌شوند.
فصل چهارم: مدل پيشنهادي
مدل پيشنهادي اين رساله براي استخراج جملات موازي از پيکره‌هاي تطبيقي شامل سه مرحله اصلي است. مرحله اول مربوط است به انتخاب جفت جملاتي که کانديد موازي بودن هستند. اين کار توسط دو فيلتر طول جمله و تعداد کلمات مشترک انجام مي‌شود. مرحله دوم عبارت است از انتخاب و تشخيص جفت جملات موازي از روي جفت جملات کانديد. تشخيص جفت جملات موازي از جفت جملات غيرموازي توسط طبقه‌بند آنتروپي بيشينه انجام مي‌شود. سپس مجموعه‌اي از ويژگي‌هاي يک جفت جمله که براي طبقه‌بند آنتروپي بيشينه در نظر گرفته شده‌اند، شرح داده مي‌شوند. در مرحله سوم دقت پيکره موازي ساخته شده نهايي با از استفاده از معيار TER افزايش داده مي‌شود. در بخش پاياني فصل، نحوه ارزيابي مدل ارائه شده شرح داده مي‌شود.
فصل پنجم: ارزيابي و نتيجه گيري
ارزيابي‌ها در دو بخش اصلي ارزيابي طبقه‌بند آنتروپي بيشينه و ارزيابي جفت جملات موازي استخراج شده آورده مي‌شوند. در بخش ارزيابي طبقه‌بند آنتروپي بيشينه ابتدا ويژگي‌هاي معرفي شده ارزيابي شده و ميزان تأثير گذاري آنها بر کارآيي طبقه‌بند سنجيده مي‌شود. سپس مسئله حساسيت طبقه‌بند به دامنه متون به کار رفته در داده‌هاي آموزشي و آزمايشي بررسي مي‌شود.
در بخش دوم، براي ارزيابي جفت جملات موازي استخراج شده از ماشين ترجمه آماري “موزز” استفاده مي‌کنيم. تنظيمات انجام شده براي ماشين ترجمه و ارزيابي جفت جملات در اين بخش شرح داده مي‌شوند.

فصل دوم
مباني نظري
?
مباني نظري
پيکره12
پيکره، مجموعه‌اي است از مواد متني يا گفتاري که بر اساس مجموعه مشخصي از معيارهاي از پيش تعيين شده گردآوري شده است. پيکره قابل خوانش توسط ماشين است به عبارتي ديگر ديجيتالي است، دامنه مشخصي دارد و محدود (داراي نهايت) است. پيکره براي پژوهش‌هاي زباني مورد استفاده قرار مي‌گيرد. از آنجايي که در اين پژوهش کاربردهاي متني ترجمه ماشيني مدنظر است، منظور از پيکره، پيکره متني مي‌باشد؛ اما از اين پس جهت سهولت تنها از لفظ پيکره به جاي پيکره متني استفاده مي‌کنيم.
پيکره مجموعه‌اي نظام‌مند از متون است. منظور از “نظام‌مند” بودن اين است که ساختار و محتواي پيکره از اصول نمونه گيري معيني پيروي مي‌کنند؛ يعني اصولي که تعيين مي‌کند پيکره شامل چه متن‌هايي باشد. همچنين نظام‌مند بودن به اين معني است که اطلاعات پيکره در ترکيب درست و مشخصي در دسترس پژوهشگران قرار مي‌گيرد.
به منظور استفاده بهتر از پيکره در حوزه پردازش زبان‌هاي طبيعي، يک پيکره مي‌تواند حاشيه نويسي شده باشد. حاشيه نويسي يعني افزودن برخي اطلاعات به پيکره، مانند اطلاعات در مورد نقش کلمات، ريشه کلمات، ساختار يا تجزيه نحوي جملات و … . برخي پيکره‌ها کاملا تجزيه شده و حاشيه گذاري مي‌شوند که به اين نوع پيکره‌ها بانک درختي گفته مي‌شود.
پيکره‌هاي متني مي‌توانند تک زبانه، دوزبانه و يا چند زبانه باشند. در پيکره‌هاي تک زبانه متون تنها به يک زبان نوشته مي‌شوند. از اين نوع پيکره‌ها (که معمولا حاشيه نويسي شده‌اند) در بازيابي اطلاعات، يافتن نقش کلمه، رفع ابهام معنايي، مدل سازي زباني و غيره استفاده مي‌شود. پيکره‌هاي دوزبانه و چندزبانه نيز به ترتيب شامل متوني در دو و بيش از دو زبان هستند. از اين پيکره‌ها در بازيابي اطلاعات صليبي و مقايسه نظير به نظير استفاده مي‌شود. پيکره‌هاي دو يا چند زبانه به طور خاص در رويکردهاي ترجمه ماشيني مبتني بر پيکره استفاده مي‌شوند. در برخي از نوشتجات، پيکره دوزبانه به عنوان پيکره موازي قلمداد مي‌شود. دو نوع برجسته از پيکره‌هاي دو يا چند زبانه عبارتند از پيکره موازي و پيکره تطبيقي، که در ادامه معرفي مي‌شوند.
پيکره موازي13
پيکره موازي عبارتست از پيکره‌اي شامل متوني به يک زبان و ترجمه آنها در يک يا چند زبان ديگر. پيکره موازي مي‌تواند دوزبانه و يا چند زبانه باشد. با اين حال به دليل اينکه اغلب پيکره‌هاي موازي دوزبانه هستند، در برخي نوشتجات به پيکره موازي، پيکره دوزبانه يا متن دوزبانه نيز گفته مي‌شود. يک پيکره موازي جهت اينکه بتواند در ترجمه ماشيني استفاده شود بايد در سطح جمله همتراز شده باشد، يعني بايد جملات هم‌ترجمه با هم جفت شده باشند؛ که به آن “پيکره موازي همترازشده” گفته مي‌شود. همتراز کردن جملات پيکره موازي پيش نياز لازم براي بسياري از حوزه‌هاي پردازش زبان طبيعي و به خصوص ترجمه ماشيني است. از آنجا که پيکره‌هاي موازي اکثرا در قالب ترازبندي شده به کار مي‌روند، اغلب و نيز در ادامه اين رساله، منظور از پيکره موازي همان پيکره موازي همترازشده مي‌باشد.
تا کنون پيکره‌هاي موازي زيادي براي جفت زبان‌هاي مختلف توليد شده است. اما همچنان به حجم بيشتري از متون موازي نياز است. OPUS [16] مجموعه‌اي روبه‌رشد از پيکره‌هاي موازي آزاد است. در پروژه OPUS داده‌هاي برخط رايگان جمع آوري مي‌شوند و سپس بصورت خودکار پيش پردازش و حاشيه نويسي مي‌شوند و در نهايت به صورت يک بسته با محتواي آزاد در اختيار عموم قرار مي‌گيرند. Europarl [5] يکي از معروفترين پيکره‌هاي موازي موجود در OPUS است. اين پيکره موازي از گزارشات پارلماني اروپا استخراج شده است و شامل 21 زبان اروپايي است. اين پيکره به هدف توليد متون همتراز شده در سطح جمله و بهبود ترجمه ماشيني آماري ساخته شده است. پيکره سازمان ملل متحد نيز پيکره‌اي موازي و شش زبانه است. اين پيکره موازي از قطعنامه‌هاي مجمع عمومي سازمان ملل متحد گرفته شده است و در سطح پاراگراف همتراز شده است. پيکره قطعنامه‌هاي مجمع عمومي سازمان ملل متحد به صورت آزاد در دسترس همگان قرار دارد.
تعداد کمي پيکره موازي انگليسي-فارسي وجود دارد، که به شيوه‌هاي مختلفي توليد شده‌اند و در اندازه و دامنه‌اي که پوشش مي‌دهند متفاوتند. پيکره موازي Shiraz [17] اولين تلاش گزارش شده براي توسعه پيکره انگليسي-فارسي است. اين پيکره شامل 3000 جمله فارسي است که از پيکره فارسي شامل مواد برخط جمع آوري شده است و بصورت دستي توسط دانشگاه ايالت نيومکزيکو به انگليسي ترجمه شدند تا سيستم ترجمه ماشيني Shiraz را آزمايش کنند. برخي تلاش‌ها در توسعه ترجمه ماشيني انگليسي-فارسي گفتار به گفتار براي نيروي حفاظت ارتش و فوريت‌هاي پزشکي با پشتيباني آژانس پروژه‌هاي تحقيقاتي پيشرفته دفاعي (DARPA) انجام شد. پيکره مورد استفاده در اين کارها از پيکره‌هاي موجود براي زبان‌هاي ديگر (مثلا انگليسي-عراقي) جمع آوري شده و يا از منابع محدود به دامنه‌اي خاص مانند راهنماهاي زبان و يا ترجمه‌هاي دستي پزشکي مي‌باشند [18]. قاسمي زاده و رحيمي تلاش‌هايي براي ساخت پيکره چندزبانه موازي براي زبان فارسي در فريم ورک MULTEXT-East انجام دادند [19]. آنها از کتاب 1984 اورول به عنوان متن اصلي براي ساخت پيکره استفاده کردند. طرف فارسي زبان پيکره تقريبا از 6606 جمله و 110000 نشانه تشکيل شده است.
محقق و صراف زاده [20] يک پيکره باز از زيرنويس فيلم‌ها توسعه دادند که حدودا شامل 10000 جفت جمله است. از طرفي ديگر پيلوار و همکاران [10] از مزاياي زيرنويس فيلم‌ها براي تشکيل TEP بزرگترين پيکره موازي انگليسي-فارسي تا به امروز، بهره بردند. که اکنون شامل 612086 جفت جمله و حدود چهار ميليون کلمه در هر دو زبان انگليسي و فارسي است. اگرچه آنها پذيرفته‌اند که زيرنويس فيلم‌ها شامل مکالمات روزانه که محاوره‌اي و غير رسمي اند، هستند و در نتيجه نمي توانند به راحتي بصورت خودکار تفسير شوند. اين امر قابليت استفاده اين پيکره را در برنامه‌هاي کاربردي پردازش زبان‌هاي طبيعي فارسي محدود مي‌کند.
فرجيان [21] نيز از منابع خبري قابل دسترس بصورت آنلاين، استفاده کرد و PEN، پيکره همتراز شده در سطح جمله را بطور نيمه خودکار ساخت. اين پيکره حدود 30000 جفت جمله همتراز شده دارد. جباري و همکاران [22] با ادغام چندين پيکره شامل پيکره استخراج شده از اخبار يک سايت خبري چند زبانه (شامل زبان فارسي و انگليسي)، پيکره تشکيل شده از زيرنويس‌هاي فيلم موجود در يک وب سايت، سه پيکره که بصورت دستي ترجمه شدند و همچنين دو پيکره موجود PEN و ELRA به همراه 20000 نام نويسه گرداني شده، پيکره بزرگ AFEC را به‌اندازه 700 ميليون خط توليد کردند.
به عنوان آخرين نمونه، انجمن منابع زبان اروپا (ELRA) يک پيکره – که بصورت تجاري از طريق وب در دسترس است- شامل حدود 3500000 کلمه در زبان فارسي و انگليسي ايجاد کرد که در سطح جمله همتراز شده، و شامل حدود 100000 جمله توزيع شده در بين 50021 مدخل است. اين پيکره ترکيبي است از چندين دامنه متفاوت شامل هنر، فرهنگ، اصطلاحات، قانون، ادبيات، پزشکي، شعر، سياست، ضرب المثل، مذهبي و علمي.
پيکره تطبيقي14
پيکره تطبيقي نوعي پيکره دو يا چند زبانه است و شامل متوني مشابه در بيش از يک زبان مي‌باشد. مشابهت متون مي‌تواند انواع مختلفي داشته باشد. به طور مثال متون مي‌توانند از نظر شباهت محتوا، ژانر، دامنه و دوره‌هاي نمونه گيري قابل تطبيق (قابل مقايسه) باشند. متون يک پيکره تطبيقي ترجمه همديگر نيستند، بلکه قابل مقايسه بودن آنها به خاطر چارچوب نمونه گيري و توازن يکسانشان است. براي پيکره تطبيقي تعاريف مختلفي آمده است که در زير به دو نمونه اشاره مي‌شود:
يک پيکره تطبيقي مجموعه‌اي از متن‌هاست که به طور جداگانه در زبان‌هاي مربوطه ساخته شده‌اند و بر پايه شباهت محتوي ترکيب شده‌اند. اين‌ها مستنداتي از يک به چند زبان هستند که از نظر شکل و محتوي در ابعاد و درجات مختلف قابل مقايسه هستند [23].
پيکره تطبيقي عبارتست از يک جفت پيکره تک زبانه در دو زبان مختلف، که از دامنه‌هاي مشابهي هستند.
پيکره‌هاي تطبيقي در کاربردهاي آماري پردازش زبان‌هاي طبيعي به عنوان داده‌هاي آموزشي استفاده مي‌شوند، کاربردهايي مانند ترجمه ماشيني آماري و يا بازيابي اطلاعات صليبي. همچنين پيکره تطبيقي در حوزه زبانشناسي، کشفيات و مقايسه‌هاي بين زباني را ممکن مي‌سازد.
دسترسي به پيکره‌هاي تطبيقي نسبت به پيکره‌هاي موازي بسيار آسان‌تر است چراکه منابع براي متون اصلي و تک زبانه خيلي بيشتر از متون ترجمه شده است. منابع بالقوه براي پيکره‌هاي تطبيقي، آژانس‌هاي خبري چندزبانه مانند AFP و BBC و …، و يا دايره المعارف‌هاي چندزبانه مانند ويکي پديا و Encarta هستند. برخي از اين پيکره‌هاي تطبيقي به طور گسترده از طريق LDC در دسترس هستند.
همترازي15
همترازي (ترازيابي) در لغت به معني هماهنگي و يا ارتباط مطلوب و مناسب بين اجزا است. به عبارتي اجزايي با يکديگر همتراز مي‌شوند که يک هماهنگي خاص بين آنها باشد، که در اينجا اين هماهنگي از نوع “هم‌ترجمه” بودن است. همترازي بين دو جزء صورت مي‌گيرد و هر کدام از اجزاء به يک زبان مختلف هستند. همترازي در سطوح مختلفي از متن انجام مي‌شود که عبارتند از همترازي در سطح سند، همترازي در سطح جمله و همترازي در سطح کلمه. هر کدام از انواع همترازي در ادامه توضيح داده مي‌شوند.
همترازي در سطح سند
همترازي در سطح سند به معني نظير کردن سندهايي در زبان‌هاي مختلف به يکديگر است که با يکديگر قابل تطبيق هستند. اين قابل تطبيق بودن مي‌تواند از نظر محتوا و يا ابعاد ديگر يک سند باشد، مانند تاريخ سند براي مستندات خبري، يا عنوان سند براي سندهاي ويکي پديا و يا ساختار HTML سند براي سندهايي که از وب جمع آوري مي‌شوند. همترازي در سطح سند براي مجموعه نوشتجاتي که ترجمه هم هستند، به معني جفت کردن هر سند با سند ترجمه اش در زبان ديگر است.
همترازي در سطح جمله16
همترازي در سطح جمله يعني يافتن جملات هم‌ترجمه از دو متن به دو زبان مختلف که ترجمه يکديگر هستند. گاهي اوقات در ترجمه متن يک جمله به دو جمله يا برعکس دو جمله به يک جمله ترجمه مي‌شوند در نتيجه همترازي جملات امري بديهي نيست. همترازي جملات، اصلي‌ترين کار در ساختن پيکره موازي از روي متون از پيش ترجمه شده مانند کتاب‌ها يا خبرهاي دو زبانه است. از اينرو همترازي جملات يک زمينه بسيار پر فعاليت در بين پژوهش‌هاي اخير حوزه ترجمه ماشيني است.
تا کنون الگوريتم‌هاي زيادي براي همترازي در سطح جمله ارائه شده است. اولين الگوريتم‌ها بر اساس طول جمله که بر حسب تعداد کلمات و يا تعداد کاراکترهاي جمله‌اندازه گيري مي‌شود، ارائه شدند [3، 24]. برخي الگوريتم‌ها نيز مبتني بر اطلاعات لغوي جمله هستند [25]. همچنين در همترازي جملات از متوني که ترجمه يکديگر هستند مي‌توان از ترتيب جملات، موقعيت جملات در متن، نشانه‌هاي جمله مانند علائم نشانه گذاري و يا وجود اعداد به عنوان پارامتر جهت شناسايي جملات همتراز استفاده کرد [26]. در [27] روشي ارائه شده که جهت همترازي جملات، سند را بصورت تکرارشونده به دو بخش تقسيم مي‌کند. تا کنون ابزارهايي جهت همترازي جملات پياده سازي شده‌اند از جمله hunalign، Uplug، همتراز کننده جملات دوزبانه مايکروسافت و … . در شکل 2-1 نمونه‌اي از دو متن همتراز شده در سطح جمله را مشاهده مي‌کنيد. همانطور که از شکل پيداست جملات هميشه بصورت يک به يک نگاشت نمي شوند بنابراين همترازي جملات ضروري است.

?
Green tea naturally contains a small amount of caffeine, which is a stimulant that can suppress appetite.چاي سبز مقدار کمي کافئين دارد اما همين مقدار کم کافئين مي‌تواند اشتهاي شما را سرکوب کند. Drinking green tea will make you feel less hungry and give you energy to boot.اگرچه نوشيدن چاي سبز باعث مي‌شود اشتهاي شما کاهش يابد اما انرژي شما افزايش مي‌دهد.The best times to drink green tea are in the morning and between meals.بنابراين وقي از اين رژيم استفاده مي‌کنيد با کم شدن مقدار کالري مصرفي شما، انرژي شما کاهش نمي يابد و احساس ضعف و خستگي نمي کنيد.Green tea is ideal in the morning because its caffeine will stimulate you for the day ahead.بهترين زمان براي نوشيدن چاي سبز، صبح و بين وعده‌هاي غذايي روزانه است.Do not, however, drink green tea too late in the afternoon or at night.نوشيدن چاي سبز در هنگام صبح بسيار مفيد است زيرا کافئين موجود در آن شمار براي گذراندن يک روز پر کار آماده مي‌کند.Otherwise, as with other drinks that contain caffeine, you may have trouble sleeping.از نوشيدن چاي سبز در ساعات آخر شب خود داري کنيد زيرا کافئين موجود درآن ممکن است شما را بي خواب کند.Your goal is to lose weight; therefore, you should not add fattening ingredients to your green tea.هدف شما از گرفتن اين رژيم کاهش وزن است بنابراين نبايد افزودني‌هاي چاق کننده به چاي خود اضافه کنيد.نمونه‌اي از دو متن همتراز شده در سطح جمله
همترازي در سطح کلمه17 (همترازي لغوي)
در همترازي در سطح کلمه يا همترازي لغوي، کلمات متناظر در دو جمله هم‌ترجمه با يکديگر نظير مي‌شوند. در همترازي لغوي کلماتي با هم نظير مي‌شوند که ترجمه يکديگر باشند. شکل 2-2 نمونه‌اي از همترازي لغوي بين دو جمله فارسي و انگليسي را نشان مي‌دهد. همترازي لغوي بين دو جمله معمولا بصورت يک گراف دو بخشي نمايش داده مي‌شود که دو کلمه با يک يال به هم متصل مي‌شوند اگر و فقط اگر آن دو کلمه ترجمه همديگر باشند. شکل 2-3 صورت ديگري از نحوه نمايش همترازي لغوي بين دو جمله است.
همترازي لغوي بين دو جمله فارسي و انگليسي در شکل گراف دو بخشي

ايرانيانسراسرجهانيلداراجشنميگيرندIraniansaroundtheworldcelebrateYaldaهمترازي لغوي بين دو جمله فارسي و انگليسي در شکل جدول همترازي
همترازي لغوي يک جزء حمايتي مهم در اکثر روش‌هاي ترجمه ماشيني آماري است. همه رويکردهاي جاري در ترجمه ماشيني آماري از همترازي لغوي يا براي آموزش و يا در توابع ويژگي استفاده مي‌کنند. پارامترهاي مدل‌هاي ترجمه ماشيني آماري معمولا با استفاده از متون دوزبانه که در سطح کلمه همتراز شده‌اند تخمين زده مي‌شوند، و برعکس در همترازي خودکار لغوي، آن همترازي انتخاب مي‌شود که در مدل ترجمه ماشيني آماري بهترين نتيجه را بدهد. از اينرو يک دور در کاربرد اين دو وجود دارد که منجر به نوعي الگوريتم حداکثر سازي اميد رياضي مي‌شود. اين روش يادگيري نوعي آموزش بدون نظارت است، که در آن نمونه‌هايي با خروجي‌هاي مطلوب به سيستم داده نشده است اما تلاش مي‌کند که بهترين همترازي را براي داده‌هايي که ديده نشده‌اند بيابد. البته روش‌هاي با نظارت نيز براي همترازي لغوي بکارگرفته شده‌اند که در آنها به سيستم مقداري جمله دستي همتراز شده داده مي‌شود.
همترازي لغوي با استفاده از مدل‌هاي آي‌بي‌ام
آي بي ام براي همترازي لغوي 5 مدل ارائه کرده است که شناخته شده‌ترين مدل‌هاي همترازي لغوي محسوب مي‌شوند. آي بي ام مدل 1 ساده‌ترين آنهاست، همينطور که از مدل 1 تا 5 مي‌رويم، مدل‌ها پيچيده‌تر



قیمت: تومان


پاسخ دهید