با سلام خدمت دوستان عزيز.
من چند وقته كه دارم روي ماشين ترجمه فارسي-انگليسي كار ميكنم. همه مقدمات كار رو انجام دادم. كد برنامه به صورت كامل نوشته شده و با استفاده از داده هاي مختلفي (حتي براي زبان انگليسي-فرانسه) تست شده.
من براي ساخت اين ماشين ترجمه از متد آماري (Statistical Machine Translation) استفاده كردم كه در حال حاضر يكي از بهترين متدها براي ترجمه محسوب ميشه. (Power Translator و مترجم Google هم از اين متد استفاده ميكنن)
شيوه كار به اين صورته كه ما ابتدا بايد حجم عظيمي از متون رو به همراه ترجمه اونها به عنوان ورودي به سيستممون بديم. سيستم باستفاده از اين داده ها يك سري مدلها رو استخراج ميكنه و ياد ميگيره كه چطور بايد متون رو ترجمه كنه. از اين به بعد هر جمله اي كه به اون داده بشه رو با دقت بالايي ترجمه ميكنه. خوبي اين روش اينه كه به زبانهاي مبدا و مقصد وابسته نيست و براي هر جفت زباني قابل استفاده است. تنها نكته اي كه داره اينه كه براي ترجمه متون از زبان a به b بايد ابتدا حجم عظيمي از جملات به زبان a رو به همراه ترجمه اونها در زبان b گير بياريم و به عنوان ورودي به سيستم بديم. به اين حجم عظيم جملات (بيش از 100 هزار جمله) پيكره يا Corpus ميگن.

براي بسياري از زبانها مثل اسپانيايي، فرانسه، آلماني، ايتاليايي، حتي عربي پيكره هاي خوب و ارزشمندي وجود داره كه حتي بعضي هاشون رو مجاني ميشه از اينترنت دانلود كرد. اما براي فارسي متاسفانه چنين چيزي وجود نداره يا اينكه حداقل من در طي اين 2، 3 سال نديدم.

كاري كه من قصد دارم الان انجام بدم و از شما هم براي انجامش كمك ميخوام اينه كه يه پيكره فارسي-انگليسي براي استفاده در ماشين هاي ترجمه آماري بسازيم. براي اينكار از دوستان تقاضا مي كنم هر كسي كه متن ترجمه شده اي داره لطف كنه و اون رو (متن اصلي به همراه ترجمش) براي ما بفرسته. به اميد خدا قصد دارم در صورت به اتمام رسيدن موفقيت آميز اين پروژه، پيكره بدست اومده رو در اختيار علاقمندان قرار بدم تا بتونن به راحتي از اون استفاده كنن.

اگه كسي اطلاعات بيشتري خواست بنده در خدمتم.