lnu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Using dated training sets for classifying recent news articles with Naive Bayes and Support Vector Machines: An experiment comparing the accuracy of classifications using test sets from 2005 and 2017
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap (DV).
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap (DV).
2017 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
Abstract [en]

Text categorisation is an important feature for organising text data and making it easier to find information on the world wide web.  The categorisation of text data can be done through the use of machine learning classifiers. These classifiers need to be trained with data in order to predict a result for future input. The authors chose to investigate how accurate two classifiers are when classifying recent news articles on a classifier model that is trained with older news articles. To reach a result the authors chose the Naive Bayes and Support Vector Machine classifiers and conducted an experiment. The experiment involved training models of both classifiers with news articles from 2005 and testing the models with news articles from 2005 and 2017 to compare the results. The results showed that both classifiers did considerably worse when classifying the news articles from 2017 compared to classifying the news articles from the same year as the training data.

Ort, förlag, år, upplaga, sidor
2017. , s. 29
Nyckelord [en]
News Articles, Machine Learning, Naive Bayes, Support vector machine, SVM, Text categorisation
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:lnu:diva-64769OAI: oai:DiVA.org:lnu-64769DiVA, id: diva2:1105495
Ämne / kurs
Datavetenskap; Datavetenskap
Utbildningsprogram
Datavetenskap, kandidatprogram, 60 hp; Utvecklare av digitala tjänster, 180 hp
Handledare
Examinatorer
Tillgänglig från: 2017-06-05 Skapad: 2017-06-04 Senast uppdaterad: 2018-01-13Bibliografiskt granskad

Open Access i DiVA

fulltext(680 kB)355 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 680 kBChecksumma SHA-512
f0f24533cd5c1e2380b6750b12cddba78127eb90ab6456f4be550b043b5a5730f63039fa4d4546a4bdb9eb3c7f25af9d13eb510a6c2098ba00fb658d8c3ed989
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Rydberg, FilipTornfors, Jonas
Av organisationen
Institutionen för datavetenskap (DV)
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 355 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 446 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf