Характеристика древнескандинавского языка с точки зрения автоматизации частеречной разметки

Вестник ТюмГУ. Гуманитарные исследования. Humanitates


Выпуск:

2019. Том 5. №4(20)

Название: 
Характеристика древнескандинавского языка с точки зрения автоматизации частеречной разметки


Для цитирования: Каримов Р. Д. Характеристика древнескандинавского языка с точки зрения автоматизации частеречной разметки / Р. Д. Каримов // Вестник Тюменского государственного университета. Гуманитарные исследования. Humanitates. 2019. Том 5. № 4 (20). С. 38-52. DOI: 10.21684/2411-197X-2019-5-4-38-52

Об авторе:

Каримов Рауль Дамирович, аспирант кафедры романо-германских языков и межкультурной коммуникации, Челябинский государственный университет; raoul.karimov@hotmail.com; ORCID: 0000-0003-0313-0309

Аннотация:

В настоящей статье рассматривается проблема частеречной разметки древнескандинавского языка средствами ЭВМ, в том числе машинного обучения, с позиции исторического языкознания. Анализируются диахронические особенности исследуемого языкового материала с точки зрения их влияния на качество осуществляемой автоматизации процесса внесения такой разметки. Описывается характер фонетических аспектов языка, обусловивших возникшие ошибки классификации.
В качестве материала исследования используется текст древненорвежского трактата Konungs skuggsjá, векторизованный методом скользящего среднего, затем примененный для обучения модели случайного леса, усиленной алгоритмом AdaBoost. Моделирование обеспечивает высокую выходную точность порядка 97%. Не будучи контекстуально уточненной, применяемая векторизация не обеспечивает полное различение морфологически схожих частей речи: глагола, существительного, прилагательного и наречия. На это указывают как определенные в качестве ключевых параметров классификации векторные измерения, каждое из которых соответствует определенному символу, так и выделенные алгоритмом Morfessor наиболее частотные морфы. Анализ этих морфов позволяет определить перечень морфограмматических единиц, вызывающих наибольшее число ошибок классификации.
Рассматривая выделенные морфы в историческом аспекте, отмечаем, что их коллизия обусловлена наследованием аналогично схожих морфов из протогерманского языка в контексте процесса, известного как ротацизм, т. е. преобразования ПГ /z/ в древнескандинавский /r/. Однако тот же самый процесс позволяет избежать коллизии личных глагольных форм, подвергшихся ротацизму, и родительного падежа существительных, унаследовавшего протогерманское окончание -s.
Основной вывод заключается в том, что, ввиду неизбежности морфологической коллизии, посимвольной векторной репрезентации может оказаться недостаточно при обучении на малой выборке или при постановке задачи по различению не только частей речи, но и словоформ.

Список литературы:

  1. Арапов М. А. Математические методы в исторической лингвистике / А. М. Арапов, М. М. Херц. М.: Наука, 1973. 322 с.

  2. Николаева Н. А. Тематизация презенса сильного глагола в кельтских и германских языках: дис. … канд. филол. наук / Н. А. Николаева. М.: МГУ им. Ломоносова, 2003. 200 с.

  3. Bandle O. The Nordic languages: an international handbook of the history of the North Germanic languages / O. Bandle, K. Braunmüller, E. H. Jahr, A. Karker, H. P. Naumann, U. Telemann, L. Elmevik, G. Wildmark (eds.). Berlin: De Gruyter Mouton, 2002. 1084 р.

  4. Gade K. E. Homosexuality and rape of males in Old Norse law and literature / K. E. Gade // Scandinavian Studies. 1986. Vol. 58. No 2. Pp. 124-141.

  5. Hagland J. R. A note on Old Norwegian vowel harmony / J. R. Hagland // Nordic Journal of Linguistics. 1978. Vol. 1. Pp. 141-147.

  6. Haugen O. E. Norrøne tekster i utval / O. E. Haugen. Oslo: Ad Notam Gyldendal, 1994. 312 р.

  7. Haugen O. E. Grunnbok i norrønt språk / O. E. Haugen. Oslo: Ad Notam Gyldendal, 1995. 320 р.

  8. Jahr E. H. Historisk språkvitenskap / E. H. Jahr, O. Lorentz. Oslo: Novus, 1993. 431 р.

  9. Karttunen L. Applications of finite-state transducers in natural language processing / L. Karttunen // Implementation and Application of Automata, 5th International Conference, CIAA 2000 (July 24-25, 2000). Pp. 34-46.

  10. Kytö M. Manual to the Diachronic Part of the Helsinki Corpus of English Texts / M. Kytö. Helsinki: University of Helsinki, 1996. URL: http://clu.uni.no/icame/manuals/HC/INDEX.HTM

  11. Loftsson H. Improving the PoS tagging accuracy of Icelandic text / H. Loftsson, I. Kramarczyk, S. Helgadóttir, E. I. Rögnvaldsson // Proceedings of the 17th Nordic Conference of Computational Linguistics (NODALIDA 2009). Odense, Denmark: Northern European Association for Language Technology (NEALT), 2009. Pp. 103-110.

  12. Medieval Nordic Text Archive. URL: http://clarino.uib.no/menota/page (дата обращения: 05.11.2019).

  13. Silva A. P. An approach to the POS tagging problem using genetic algorithms / A. P. Silva, A. Silva, I. Rodrigues // Computational Intelligence. Berlin: Springer, 2015. Pp. 3-17.

  14. Smit P. Morfessor 2.0: toolkit for statistical morphological segmentation / P. Smit, S. Virpioja, S. A. Grönroos, M. Kurimo // Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2014. Pp. 21-24.

  15. Spurkland T. Innføring i norrønt språk / T. Spurkland. Oslo: Universitetsforlaget, 1989. 173 р.

  16. Stroh-Wollin U. The emergence of definiteness marking in Scandinavian — new answers to old questions / U. Stroh-Wollin // Arkiv för nordisk filologi. 2016. No 131. Pp. 129-169.

  17. Takala P. Word embeddings for morphologically rich languages / P. Takala // European Symposium on Artificial Neural Networks (Bruges, April 27-29, 2016). Рр. 177-182.

  18. Tharwat A. AdaBoost Classifier: An Overview / A. Tharwat. Frankfurt: Frankfurt University of Applied Sciences, 2018. URL: https://www.researchgate.net/publication/323119678_AdaBoost_classifier_an_overview

  19. Vrieland S. D. Old English and Old Norse. An Introduction to West and North Germanic / S. D. Vrieland. Copenhagen: University of Copenhagen, 2004. URL: https://www.academia.edu/7017345/Old_English_and_Old_Norse_Introduction_to_West_and_North_Germanic

  20. Witten H. I. Data Mining: Practical Machine Learning Tools and Techniques / H. I. Witten, E. Frank, M. A. Hall. Burlington, Massachusetts: Morgan Kaufmann Publishers Inc., 2011. 664 р.