lnu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
A Classifier to Determine Whether a Document is Professionally or Machine Translated
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap och medieteknik (DM), Institutionen för datavetenskap (DV).
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap och medieteknik (DM), Institutionen för datavetenskap (DV).
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap och medieteknik (DM), Institutionen för datavetenskap (DV). (DISA ; DSIQ)ORCID-id: 0000-0002-7565-3714
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap och medieteknik (DM), Institutionen för datavetenskap (DV). (DISA ; DSIQ)ORCID-id: 0000-0003-1173-5187
Visa övriga samt affilieringar
2016 (Engelska)Ingår i: PERSPECTIVES IN BUSINESS INFORMATICS RESEARCH, BIR 2016, Springer, 2016, s. 339-353Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

In an increasingly networked world, the availability of high quality translations is critical for success, especially in the context of international competition. International companies need to provide well translated, high quality technical documentation not only to be successful in the market but also to meet legal regulations. We seek to evaluate translation quality, specifically concerning technical documentation, and formulate a method to evaluate the translation quality of technical documents both when we do have access to the original documents and when we do not. We rely on state-of-the-art machine learning algorithms and translation evaluation metrics in the context of a knowledge discovery process. Our evaluation is performed on a sentence level where each sentence is classified as either professionally translated or machine translated. The results for each sentence is then combined to evaluate the full document. The research is based on a database that contains 22,327 sentences and 32 translation evaluation attributes, which are used to optimize Decision Trees that are used to evaluate translation quality. Our method achieves an accuracy of 70.48% on sentence level for texts in the database and can accurately classify documents with at least 100 sentences.

Ort, förlag, år, upplaga, sidor
Springer, 2016. s. 339-353
Serie
Lecture Notes in Business Information Processing, ISSN 1865-1348 ; 261
Nyckelord [en]
Information quality, Machine learning, Translation quality
Nationell ämneskategori
Datavetenskap (datalogi)
Forskningsämne
Data- och informationsvetenskap, Datavetenskap
Identifikatorer
URN: urn:nbn:se:lnu:diva-60811DOI: 10.1007/978-3-319-45321-7_24ISI: 000392265100024Scopus ID: 2-s2.0-84988487488ISBN: 978-3-319-45321-7 (tryckt)ISBN: 978-3-319-45320-0 (tryckt)OAI: oai:DiVA.org:lnu-60811DiVA, id: diva2:1075930
Konferens
15th International Conference on Perspectives in Business Informatics Research (BIR), SEP 15-16, 2016, Univ Econ, Prague, CZECH REPUBLIC
Tillgänglig från: 2017-02-21 Skapad: 2017-02-21 Senast uppdaterad: 2019-03-06Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Personposter BETA

Luckert, MichaelLöwe, WelfEricsson, MorganWingkvist, Anna

Sök vidare i DiVA

Av författaren/redaktören
Luckert, MichaelLöwe, WelfEricsson, MorganWingkvist, Anna
Av organisationen
Institutionen för datavetenskap (DV)
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 123 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf