Low-rank approximations of second-order document representations

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://hdl.handle.net/10138/309458

Lähdeviite

Lagus , J , Sinkkonen , J & Klami , A 2019 , Low-rank approximations of second-order document representations . in M Bansal & A Villavicencio (eds) , Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL) . ACL , Stroudsburg, PA , pp. 634-644 , Conference on Computational Natural Language Learning , Hong Kong , Hong Kong , 03/11/2019 . https://doi.org/10.18653/v1/K19-1059

Julkaisun nimi: Low-rank approximations of second-order document representations
Tekijä: Lagus, Jarkko; Sinkkonen, Janne; Klami, Arto
Muu tekijä: Bansal, Mohit
Villavicencio, Aline
Tekijän organisaatio: Department of Computer Science
Helsinki Institute for Information Technology
Julkaisija: ACL
Päiväys: 2019-11
Kieli: eng
Sivumäärä: 11
Kuuluu julkaisusarjaan: Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL)
ISBN: 978-1-950737-72-7
DOI-tunniste: https://doi.org/10.18653/v1/K19-1059
URI: http://hdl.handle.net/10138/309458
Tiivistelmä: Document embeddings, created with methods ranging from simple heuristics to statistical and deep models, are widely applicable. Bag-of-vectors models for documents include the mean and quadratic approaches (Torki, 2018). We present evidence that quadratic statistics alone, without the mean information, can offer superior accuracy, fast document comparison, and compact document representations. In matching news articles to their comment threads, low-rank representations of only 3-4 times the size of the mean vector give most accurate matching, and in standard sentence comparison tasks, results are state of the art despite faster computation. Similarity measures are discussed, and the Frobenius product implicit in the proposed method is contrasted to Wasserstein or Bures metric from the transportation theory. We also shortly demonstrate matching of unordered word lists to documents, to measure topicality or sentiment of documents.
Avainsanat: 113 Computer and information sciences
Vertaisarvioitu: Kyllä
Tekijänoikeustiedot: cc_by
Pääsyrajoitteet: openAccess
Rinnakkaistallennettu versio: publishedVersion


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
K19_1059.pdf 2.350MB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot