Gravatar tilde / Valodas resursi

Valodas resursu trūkums ir viens no lielākajiem šķēršļiem valodas tehnoloģiju attīstībai Eiropā. Cenšoties pārvarēt šo šķērsli, Tilde apņēmās veidot jaunus daudzvalodu korpusus Eiropas valodām, īpaši mazajām valodām, kas ir visvairāk nepieciešami un lai tie būtu brīvi pieejami pētniekiem un izstrādātājiem.

Paralēlais korpuss Tilde MODEL – fold.lv

Lai veicinātu valodas resursu trūkumu kā šķērsli valodas tehnoloģiju attīstībā, sabiedrība Tilde ir identificējusi dizaina un mākslas rakstu portālu fold.lv kā avotu paralēlam angļu-latviešu valodu tekstu korpusam.

Projekta ODINE Open Data for Europe ietvaros no šī portāla tekstiem ir izveidots paralēls korpuss. Projekta Projekta ODINE Open Data for Europe mērķis ir atbalstīt nākamās paaudzes digitālos uzņēmumus un paātrinātu jaunu produktu un pakalpojumu radīšanu.

Ir panākta vienošanās ar portālu fold.lv par portāla satura izmantošanu mašīntulkošanas korpusa izveidei un tā licencēšanu ar radošo kopienu licenci ar atsaukšanos CC-BY. Piekrītot šīs licences nosacījumiem, šis korpuss ir pieejams ikvienam nozares lietotājam lejupielādei korpusu standarta TMX formātā.

Portāls fold.lv ir līderis un piemērs, kā publiskā sektora finansēts saturs var tikt atvērts sabiedrībai un padarīts pieejams pētniekiem un jaunu tehnoloģiju izstrādātājiem.

Korpusā ir 10 692 paralēlu angļu-latviešu valodas segmentu.

Avota URL: https://tilde-model.s3-eu-west-1.amazonaws.com/Tilde_MODEL_Corpus.html#tilde-model-fold.lv

Tilde MODEL daudzvalodu korpuss

Valodas resursu trūkums ir viens no lielākajiem šķēršļiem valodas tehnoloģiju attīstībai Eiropā. Cenšoties pārvarēt šo šķērsli, Tilde apņēmās veidot jaunus daudzvalodu korpusus Eiropas valodām, īpaši mazajām valodām, kas ir visvairāk nepieciešami un lai tie būtu brīvi pieejami pētniekiem un izstrādātājiem. Mēs apzinājām un izveidojām daudzvalodu datu komplektus daudzām valodām. Turklāt savāktie tekstu korpusi ir iztīrīti, sastatīti un formatēti paralēlo korpusu TMX standarta formātā, gatavi izmantošanai jaunu valodas produktu un pakalpojumu izveidei.

Šis korpuss izveidots kā daļa no projekta ODINE Open Data for Europe, kā mērķis ir atbalstīt nākamās paaudzes digitālos uzņēmumus un paātrinātu jaunu produktu un pakalpojumu radīšanu.

Šis dokuments parāda Tilde MODEL (saīsinājums no Multilingual Open Data for European Languages) korpusa sastāvu un ļauj lejupielādēt korpusa failus katram valodu pārim TMX formātā.

Savāktie dati ir no vietnēm, kas atļauj brīvu to izmantošanu un atkārtotu izmantošanu, kā arī no publiskā sektora vietnēm.

Korpusa licence: Radošās kopienas licence ar atsaukšanos -- CC-BY - Creative Commons with attribution.

Ja izmantosiet korpusu savā darbā, lūdzu atsaukties uz šādu rakstu,: Roberts Rozis, Raivis Skadins, 2017, Tilde MODEL - Multilingual Open Data for EU Languages. Proceedings of the 21th Nordic Conference of Computational Linguistics NODALIDA 2017.

Avota URL: https://tilde-model.s3-eu-west-1.amazonaws.com/Tilde_MODEL_Corpus.html

Komentāri

× Lūdzu pieslēdzieties, lai komentētu

Pēdējās aktivitātes

Jaunākie komentāri