HLT-ko kontzeptu batzuk

19 06 2008

Gaiaren inguruko terminologia azaltzen saiatuko gara lau kontzepturen definizioekin:

Makina bidezko itzulpena; edo Machine Translation (MT), lengoaia natural batetik bestera, testu edo hizkerak itzultzeko, softwarearen erabilera ikertzen duen konputagailu bidezko linguistikaren arlo bat da. Hasiera batean hitzez-hitzeko itzulpen soiletara mugatzen zen, baina gaur egun egitura konplexuen arteko itzulpenak ere egiten dira.

Makinaz lagundutako itzulpena (machine aided translation); TAO bezala ezaguna, informatikako programen bidez eginiko itzulpenari ematen zaion izendapena da. Adibidez, itzulpen memoriak sortu eta antolatzen dituztenak.

Hizkuntza askotako edukien kudeaketa (multilingual content managament); kudeatzaileek weg orrien hizkuntza desberdinetako bertsioen bidez ahalik eta pertsona gehienetara iritsi nahi dute. Gaur egun informazio bat hartzaile kopuru handiena izan dezan hizkuntza desberdinetara itzultzea ezinbestekoa baita.

Itzulpenerako teknologia (translation technology); hizkuntza desberdinen arteko hizkera era simultaneoan itzultzea helburutzat duen teknologia da, bai idatziz bai ahoz.

Iturriak:

- http://content.library.utoronto.ca/rcat/services/mttc/

- http://www.geocities.com/langtecheval/

- http://en.wikipedia.org/wiki/Machine_aided_translation





Itzulpenen adibideak (MT sistemaz)

19 06 2008

 

Itzultzerako orduan ez da berdina izaten jatorri bera duten hizkuntzen arten egitea (katalana, gaztelera, portugesa,etab.) edota jatorri desberdina dutenen artean egiten denean (gaztelera, ingelesaerrusiera,etab.). Azken hauek egitura eta esanahi arazoak direla eta zailagoak dira egiten.

   Hona hemen gaztelaniatik katalanera itzulitako berri baten zati bat. El periódico de Catalunya-tik hartutakoa da; lehenbizikoa gaztelaniako bertsiotik eta bigarrena katalanekoatik. Hirugarrena berriz itzultzaile automatiko batekin gauzatutakoa da. Testuak aztertu eta gero ondorioztatu daiteke itzultzaile automatikoak lan oso ona burutu duela, katalanezko bertsioarekin ia bat etortzen baita.

1.”Cuando los agentes de policía llegaron anoche al lugar de los hechos, se encontraron ya sin vida a las víctimas, una mujer de unos 50 años, y su hijo, de unos 20. La policía enmarca el doble asesinato en un posible ajuste de cuentas relacionado con el tráfico de drogas, según las fuentes informantes”.

2.”Quan els agents de policia van arribar ahir a la nit al lloc dels fets, van trobar sense vida les víctimes, una dona i el seu fill. La policia emmarca el doble assassinat en una possible revenja relacionada amb el tràfic de drogues, segons les fonts informants”.

3.”Quan els agents de policia van arribar ahir a la nit al lloc dels fets, es van trobar ja sense vida a les víctimes, una dona d’uns 50 anys, i el seu fill, d’uns 20. La policia emmarca el doble assassinat en un possible venjança relacionat amb el tràfic de drogues, segons les fonts informants”.

   Oraingo honetan eitb24-tik hartutako ingeleseko(b), frantseseko(a) eta gaztelerako(c) bertsioak dira eta jarraian datozenak gazteleratik ingelesera eta frantsesetik gaztelerara eginiko itzulpenak itzultzaile automatikoarekin. Esaldi motz hauek nahiko ondo itzulita daude, baina arazoak ikusten dira lehenengoan “dar a luz” “give to light” itzultzerakoan (give birth, ordez) eta bigarrenean “donne le jour” “da el día” bezala hartzean (dio a luz-en ordez).

a) Chine: la femme sauvée deux jours après le séisme donne le jour à un bébé.

b) China: a woman who was rescued two days after the quake gives birth to her child.

c) China: da a luz la mujer que fue rescatada con vida dos días después del terremoto.

1.China: it gives to light the woman who was rescued with life two days after the earthquake.

2.China: la mujer salvada dos días después del seísmo da el día a un bebé.

Iturriak:

- http://oesi.cervantes.es/traduccionAutomatica.html

- http://www.eitb24.com/

- http://www.elperiodico.com/





Itzulpengintzaren ezaugarri nagusiak

19 06 2008

Itzulpengintza arloaren ezaugarrietaz ari garenean irtetea aurrikusita dugun iinformazio fluxuaz ari gara, itzulpena jasotzera doanaren ikuspuntutik. FEMTI-ren arabera hiru dira nabarmenteko moduko ezugarriak:

ASIMILAZIOA; asimilazio arloaren azken helburua erakunde kanpoko jendeak ekoiztutako bolumen marduleko testuak ikuskatzea da, hainbat hizkuntzetan.

DISEMINAZIOA; hedakuntzaren xedea erakundearen barnean sortutako agiriak gainontzekoei helaraztea da.

KOMUNIKAZIOA; hizkuntza desberdinak hitz egiten dituzten pertsonen arteko elkarrizketa erraztu nahi da, horretarako itzulpenaren maila ona izatea garrantzitsua delarik.

Iturria:

http://www.issco.unige.ch:8080/cocoon/femti/st-home.html





HLT-ko ikerketa gaiak

18 06 2008

Mundu osoan banatuta dauden HLTari buruzko ikerketa zentro eta elkarteek hamaika gai desberdin jorratzen dituzte, eta horietako batzuk artikulu honetan biltzen dira.

Gertukoenengandik hasteko, Lengoaia Naturalaren Prozesamendurako IXA taldeak itzulpen memorien sorkuntzan, hiztegi kontsultarako sistema aurreratua garatzen, gramatika eta estilo zuzentzileekin, corpus eleanitza eta lerrokatua biltzen, eta hiztegi elktronikoan dihardu lanean, beste gai batzuen artean.

Alemaniako Deutsches Forschungszentrum für Künstliche Intelligenz-ek (DFKI) berriz, dokumentazio aurkibideak alemanieraz eta ingelesez egin, prozesatutako informazioa hizkuntza anitzetan kodifikatu, aukeratutako informazioak modu automatikoan egituratu eta agertu, ditu lan lerroetako batzuk.

 Language Technology Group eskoziarrak, zientzia eta teknologiaren ekintza bateratuan, semantika arruntaren eta ezagupenaren arteko konbinaketa, etb.etan dihardu.





Europako ikerketa zentroak

14 04 2008

Giza lengoaiaren teknologia jorratzen duten hainbat ikerketa zentro ditugu mundu osoan zehar, eta nola ez, Europan ere baditugu. Hona hemen horietako batzuk eta esku artean dituzten proiektuak:

  • Language Technology Lab (DFKI, Germany), 2008ko apirilaren 2an, http://www.dfki.de/lt/projects.php
    • exploiting – and automatically extending – ontologies for content processing
    • tighter integration of shallow and deep techniques in processing
    • enriching deep processing with statistical methods
    • combining language checking with structuring tools in document authoring
    • document indexing for German and English
    • automatically associating recognized information with related information and thus building up collective knowledge
    • automatically structuring and visualizing extracted information
    • processing information encoded in multiple languages, among them Chinese and Japanese
  • National Centre for Language Technology (Ireland), 2008ko apirilaren 2an, http://www.computing.dcu.ie/research/nclt/
  • CALL Computer Assisted Language Learning

      Integrating CL/NLP/HLT Technology into CALL, CALL for Endangered Languages, CALL for Primary School Environments, CALL for Remedial Learners

    Corpus Linguistics

      Collocation, Contrastive Computational Linguistics, Corpus-based Translation Studies

    Machine Translation and Translation Technology

      Statistical and Rule-Based MT (SMT, RBMT), Example-Based MT (EBMT), Translation Memories (TMs), Boosting Existing MT Systems, Machine-Aided Translation (MAT), Computer-Aided Translation (CAT), Controlled Languages

    Treebank-Based Unification Grammar Acquisition

      Automatic Feature-Structure Annotation Algorithms, Subcategorisation Frame Extraction, Wide-Coverage Robust Probabilistic Unification Grammar Acquisition, PCFG-Based LFG Approximation, HPSG Acquisition, Multilingual Treebank-Based Grammar Acquisition

    Semantics

      Discourse Representation Theory, Linear-Logic Based Semantics, Computation of Logical Forms from Treebanks, Open-Domain Question Answering Systems

    Speech Technology

      Speaker Characterisation, Audio Classification, Retrieval and Coding, Human Computer Interfaces (HCIs)

    Multilingual Information Retrieval/Extraction

      Language Evolution

      • Edinburgh Language Technology Group (Scotland, UK), 2008ko apirilaren 2an, http://www.ltg.ed.ac.uk/
      • AMI and AMIDA AMI consortium projects that are developing technologies for meeting browsing and to assist people participating in meetings from a remote location
        BOPCRIS Named entity tagging of historical parliamentary proceedings
        Collaborating Using Diagrams Study of how pairs collaborate when in planning a route on a map.
        CROSSMARC Cross-retail Multi-agent Retail Comparison
        EASIE Combining Shallow Semantics and Domain Knowledge
        JAST Joint Action Science and Technology
        SQUAD Smart Qualitative Data: Methods and Community Tools for Data Mark-Up
        SEER Machine Learning for Named Entity Recognition
        Synthesis Integrated Models and Tools for Fine-Grained Prosody in Discourse
        TXM Text Mining for Biomedical Content Curation





        HANS USZKOREIT

        7 04 2008

        Hans Uszkoreit Saarlandeko unibertsitatean Konputagailu Linguistikako irakaslea da, Alemaniako Ikerkuntza Zentruko (German Research Center for Artificil Intelligence, DFKI) zuzendaria izateaz gain. Linguistika eta informatikako ikasketak burutu zituen Berlingo eta Texas-ko unibertsitateetan, doktoretza eta guzti. Proiektu askotan hartu du parte Uszkoreit-ek eta talde desberdinetako kide iraunkorra da International Comittee of ComputationalLinguistics-ekoa (ICCL), esate baterako.

        Bere azken argitalpenen artean aurki dezakegu:

        Uszkoreit, H. (2007) Methods and Applications for Relation Detection. In: Proceedings of the Third IEEE International Conference on Natural Language Processing and Knowledge Engineering, Beijing, 2007.

        Uszkoreit, H. F. Xu, W. Liu (2007) Challenges and Solutions of Multilingual and Translingual Information Service Systems, To appear in Proceedings of HCI International 2007, 12th International Conference on Human-Computer Interaction, Beijing, 2007.

        http://www.coli.uni-saarland.de/~hansu/bio.html

        http://hans.uszkoreit.net/

         





        LENGOAIA NATURALAREN PROZESAMENDUA

        1 04 2008

         Lengoaia Naturalaren Prozesamendua (Natural Language Processing edo Human Language Technologies, ingelesez) kontzeptura hurbiltzeko zenbait definizio edo azalpen emango ditugu. Guztira hiru dira, beraien artean nahiko desberdinak direlarik (beti ere kontzeptu bera izanda antzekotasunak ezinbestekoak dira) eta sarrera moduan gauzak argituko dizkigute:

        a) Lengoaia naturalaren prozesamendua (LNP) Informatika eta Linguistikaren azpi-atal bat dugu. Gizakien arteko komunikazioa edota hauek makinekin dutena lengoaia naturalaren bitartez, bere baitan hartzen duen programen aplikazioak eta informatika tekniken multzoa da. Dominio honekin erlazionaturiko aplikazioak hautxek dira:

        - Itzulpen automatikoa

        - Akats ortografikoen zuzenketa

        - Testuetatik informazioa berreskuratzea eta ateratzea

        - Lengoaiaren ulerkera

        - Testuen belaunaldi automatizatua

        - Hizkeraren ezagupena

        - Ahotsaren sintesia

        - Galderei erantzunak

        b) Hizkuntzaren tratamendu automatikoaren inguruko ikerlerroari lengoaia naturalaren prozesamendua (LNP) esaten diote informatikariek, nahiz eta batzuetan, hizkuntzalaritzaren ikuspuntutik erreparatuta, batez ere, linguistika konputazionala ere esan. Hizkuntzarne industria oso bat sortzen ari da, konputagailuaz baliatuz hizkuntza prozesatzea helburu duena. Jakintza arlo berri honetan ezinbestekoa da informatikari eta hizkuntzalarien formazioa eta haien arteko lankidetza.

        c) PLNa ordenagailuekin komunikatzeko lengoaia naturalari deitzen zaio, honela makinak bidaltzen zaizkion mezuak ulertu behar ditu. Lengoaia naturalaren erabilerak lengoairekin erlazionaturiko programen garapena errazten dute, edota lengoaiarekin erlazionatutako giza mekanismoak ulertzen lagunduko duten ereduak garatzen dituzte.

        Iturriak:

        http://procesamientolenguaje.iespana.es/

        http://www.ueu.org/courses/one?id=147&scope=public

        http://www.scribd.com/doc/20368/procesamiento-del-lenguaje-natural?ga_related_doc=1








        Follow

        Get every new post delivered to your Inbox.