Wednesday, January 8, 2014

Монгол хэлийг машины хэлрүү

Мэдээллийн технологи нь хүнд зөв оновчтой мэдээллийг хүргэхэд чиглэдэг. Үүний тулд мэдээллийг цуглуулж, боловсруулж, хэрэгтэй үед нь хэрэгтэй газарт хүргэх нь чухал. Бидний мэдээллийг машин зөөж, боловсруулж байдаг хэдий ч эцсийн эцэст мэдээлэл маань хүнээс бий болж, хүнд очино. Иймээс мэдээллэлийг оновчтой бий болгож хүргэхийн тулд хүн ба машины хоорондын мэдээлэл солилцох хэрэгсэл мэдээллийн технологид чухал үүргийг гүйцэтгэж, үндэс суурь нь болж байдаг.

Өнөөдрийг хүртэл хүн төрөлхтний хэрэглэж ирсэн хүн машиний мэдээлэл солилцох interface дундаас хамгийн үр дүнтэй нь keyboard болон display байлаа. Гэхдээ энэ хамгийн энгийн interface маань хүртэл Монголчууд бидэнд төдийлөн ойр байсангүй. Бид нийтээрээ жинхэнэ өөрийн хэл дээр мэдээллийг бий болгож, хэрэглэж чаддаг болтол их хугацаа зарцуулагдсан. Windows XP дээр UTF-8 дэмждэг болж Монгол keyboard-тай болтол "Danzan font" ашиглаж түүний дараа бага зэрэг дэвшил гарч "Windows-1251 encoding" ба "Arial Mon" гэсэн фонтуудыг хослуулан ашиглаж түр зуур аргацааж байлаа. Монголчуудад зориулагдсан interface үгүйгээс болж бид Монгол хэлийг англи үсгээр галиглан бичих болж бидний бий болгосон мэдлэг мэдээлэл үнэгүйдэж, мэдээллийн салбарт гарч болох байсан олон үйлчилгээ болон дэвшил гарч чадаагүй байх талтай.

UTF-8-д Монгол үсгүүд бүтгэгдэж Window XP дээр Монгол keyboard той болсноор бид анх удаа өөрсдийн мэдээллийг алдаа мадаггүй тэмдэглэн үлдээх боломжтой болжээ. Гэхдээ тун удалгүй Mobile ертөнцийн давалгаанд бид дахиад л гээгдэж орхисон.

Тийм ч учраас бид эхний ээлжинд дэлхийн хамгийн их хэрэглэгчтэй Android систем-ийг Монгол хэл дэмждэг болгох (link), хамгийн олон хэл дээрх хөрвүүлэгч (Google translate)-д Монгол хэлийг оруулахыг (link) зорисон хэрэг. 2013 ондоо багтааж санасандаа хүрлээ. Бид Android дээр Монгол хэлээрэй чөлөөтэй бичиж чадах болж, android үйлдлийн систем Монгол хэлийг дэмждэг болгож, түүгээр барахгүй Монгол хэл болон бусад 100 орчим хэлний хооронд алдаа ихтэй ч хөрвүүлж чадах боллоо.

Гэхдээ үүний цаана томоос том даваанууд биднийг хүлээж байгаа юм. Хүн төрөлхтний удаан хугацаанд хэрэглэж ирсэн keyboard болон screen гэсэн interface хурдацтай өөрчлөгдөж байна. Тун удахгүй machine бидний яриаг ойлгож гар болон дүрс бичгийг уншиж бидний хүсэлтийг биелүүлж байдаг туслахын үүргийг гүйцэтгэх цаг ирнэ. Энэ нь бидний бодож байгаагаас ч хурдан биелэлээ олж байна. Энэ салбарын тэргүүлэгчид болох Apple siri болон Google now гэсэн бүтээгдэхүүнүүд энэ чиглэлд ихээхэн ахиц гаргаж байна. (харьцуулах) Эдгээр бүтээгдэхүүнүүд нь хүний яриаг хүлээн авч агуулгыг ойлгоод зогсохгүй их хэмжээний мэдээллийн сангийн тусламжтайгаар бидэнд оновчтой хариултыг өгч байх үүрэгтэй. Зөвхөн эдгээр бүтээгдэхүүнүүд ч биш үүнд тулгуурласан олон төрлийн үйлчилгээнүүд бий болж, мэдээлэл боловсруулах, хүргэх, цуглуулах технологид эргэлт гарах болно. Харин бид урьдичлан Монгол хэлийг машины ойлгох хэл болгож чадахгүй бол дахиад л нэг мэдэхэд бүх зүйлээс хоцорсон байх бий.

Google translate-ийн чанарыг сайжруулах зорилголтой санаачлагууд (link) ч олноор гарч байгаад тун их баяртай байна. Би ч хувийн зүгээс бүх санаачлагад чадах хэмжээндээ дэмжлэг үзүүлэхийг зорих болно. Эдгээр нь зөвхөн google translate-д хамаатай зүйл биш бөгөөд бид цаашид machine interface-д гарах томоохон давалгааг давж гарах бэлтгэл ажил болох юм. Монгол хэл дээр бэлтгэгдсэн machine interface-ийг хөгжүүлэх зориулалт бүхий хангалттай хэмжээний мэдээллийн сан байдгүйгээс болж энэ салбарын хөгжил удаашралтай байна. Google translate-ийн тухайд хамгийн хүнд асуудал ч мөн энэ л байлаа. Монгол хэлийг machine ойлгодог хэл болгох ажлыг хийхийг хүссэн хэн ч төвөггүй ашиглаж болохуйц нээлттэй мэдээллийн санг бий болгож чадвал бид нэг алхам урагшилж чадах юм.

Хэлэх амархан хийх хэцүү гэж... Энэ ажлыг хэн хэрхэн гүйцэтгэх ёстой вэ?
Би хувьдаа, гол тоглогчид хувийн хэвшлүүд байгаасай гэж боддог. Тэд маань хэдэн жилийн дараа бий болж болох томоохон зах зээлийг урьдичлан харж, тогтвортой хөрөнгө оруулалт оруулан тодорхой бүтээгдэхүүн гаргахыг зорих хэрэгтэй. Хувийн хэвшлүүд маань өөрт буй мэдээллийн санг нээлттэй санд нэгтгэж харин түүнээс их нээлттэй санг бүрэн хэмжээгээр ашиглах боломжтой болох юм. Түүнээс гадна үүнд тодорхой хэмжээний судалгааны хөрөнгө оруулалт оруулах нь зүйтэй юм. Харин мэдээллийн санг хадгалах удирдах цуглуулах нэг хэлбэрт оруулах үүргийг их сургуулиуд маань хамтран гүйцэтгэх нь зөв.  Тэдэнд маань засгийн газрын эсвэл хувийн хэвшлүүдийн нийлмэл хөрөнгийн сангаас санхүүжилт өгч багш оюутнууд маань суурь судалгааг хийж олонд тайлагнаж байх нь зүйтэй болвуу.

Ажлын төгсгөлд бид өөрсдийн мэдээллийн сантай. Энэ мэдээллийн сан нь Монголчуудад хэрэгтэй "Монгол хэлийг машины хэлрүү..." гэсэн зорилгын хүрээнд ажиллаж буй хэнбэ гуай нь ч саад бэрхшээлгүй авч хэрэглэх боломжтой. Мэдээллийн санг түшиглэн боссон бидэнд хэрэгтэй олон төрлийн бүтээгдэхүүн үйлчилгээнүүдтэй. Энэ бүтээгдэхүүн үйлчилгээнүүдийг ашиглаж буй Монголчууд бидний мэдлэг мэдээлэл хөгжиж байдаг ийм орчныг бий болгох юм.

Төгсгөлд нь "Google translate"-ийн чанарыг сайжруулахыг хүсэж буй хувь хүмүүс олон байгаа. Үүнд хамгийн амархан арга нь Google translate volunteer form form-д элсэн юм. Зөвхөн gmail хаягаар элсэж болохыг анхаарна уу. Одоогоор зуу хүрэхгүй өгүүлбэр орчуулагдсан байна билээ. Hurry up please :)

Монгол хэл, Монгол соёл, Монгол хүн улам бүр хөгжин дэвжих болтугай.

Та санал бодлоо чөлөөтэй солилцоно уу! https://twitter.com/battulga11 

4 comments:

Badral's personal blog said...

Хэлээд юүүхэв. Тэр дундын баазыг үүсгэх ажлыг улсын санхүүжилтээр хийчихье гэсэн санаачлага улсын их хурлын даргаасаа авхуулж гаргаад шуугиж, шуугиж таг болсон. Сүүлд боловсролын яам дээр гэл үү хаана гэлээ хэдэн хүн суулгахаар боллоо гэж дуулдсан.
Манайх дээр (Bolorsoft) ажлууд хийгдэж байгаа ч санхүүгийн хувьд асар хүнд байгаа тул удаашралтай байгаа. Бид сууриа бүрэн тавьсан. Судалгаагаа ч овоо хийсэн. Цааш яаж хөгжүүлэх түлхүүрээ ч олсон боловч эцсийн эцэст хөрөнгө мөнгөний асуудлаас болоод л удаашралд ороод байгаа юм. Учир нь бид өнөөдөр хэл шинжлэлийн бүтээгдэхүүнээ спелл-с хойш түр зогсоогоод энтерпрайс систем хөгжүүлж эхэлж байна. Хэдий дургуй байвч арай хялбар програмчлалтай бөгөөд борлогдох нь монголд тэр л болж эхлэх юм. Зовлон их байна шүү.

Ulzii said...

Бусад орны хүмүүс Монгол хэлийг шамдан суралцах тэр нэгэн "нартай өдөр" ирэх болтугай!

Unknown said...

google-д орсон датаг бид он удаан жил дураараа нээлттэй хэрэглэж чадах бил үү? Уг нь үндэсний л юм хэрэгтэй дээ.

Unknown said...

Би таны хэлж байгаа хийж байгаа зүйлүүдийг их дэмжиж байгаа. Таны хэлээд байгаа технологийн дэвшлүүдийг хэрэглэдэг болох урьтаж түүнийг хөгжүүлдэг болох хэрэгтэй гэдгийг 100% дэмжиж байна. Би хөгжүүлэгч болохыг хүсэж байна. Юунаас эхлэх вэ? Мэдээж том зүйлрүү орох гэж байгаагаа ойлгож л байна. Гэхдээ аугаа зүйл энгийнээс гэдэг дээ. Та надад хэрхэн хөгжүүлэгч болох талаар анхан шатны мэдлэг зөвлөгөө өгөөрэй. Би хичээнгүй сурах болно.

Google Analytics