Morphology and word order in Slavic languages: Insights from annotated corpora [Морфология и порядок слов в славянских языках: исследование на материале аннотированных корпусов]
Отзывы
Оценка читателей
0.0 (0 голосов)


Всего просмотров
353


Скачивания
28
Образовательные программы
УДК
80 Общие вопросы лингвистики, литературы и филологии
Дата выпуска
08.07.2021
Год выпуска
2021
DOI
10.31857/0373-658X.2021.4.131-159
Morphology and word order in Slavic languages: Insights from annotated corpora [Морфология и порядок слов в славянских языках: исследование на материале аннотированных корпусов]
Аннотация

Известно, что славянские языки обладают богатой морфологией, а также свободным порядком слов. Исследование взаимосвязи этих двух характеристик важно для понимания соотношения между морфологией и синтаксисом в естественных языках. Однако квантитативных исследований этого вопроса на славянском материале существует немного. В данной статье на материале 34 аннотированных корпусов из Universal Dependencies исследуется корреляция между морфологией и синтаксисом в славянских языках с использованием двух метрик богатства морфологии и двух метрик свободы порядка слов. Результаты заключаются в следующем. Во-первых, принятые количественные метрики хорошо отражают связь между морфологическим богатством и свободой порядка слов в языках. Во-вторых, метрики подтверждают наличие корреляции между морфологическим богатством и свободой порядка слов (чем богаче морфология, тем менее строгий порядок слов). В славянских языках эта корреляция является умеренной и статистически значимой. В-третьих, славянские языки можно разделить на три подгруппы на основе классификационных моделей. В частности, древние славянские языки характеризуются более богатой морфологией и более гибким порядком слов, чем современные. В-четвертых, было установлено, что размер корпуса не сильно влияет на результаты анализа, но преобладающий в корпусе жанр имеет большое значение при измерении свободы порядка слов — а именно, порядок слов в формальных письменных текстах является более жестким, чем в неформальных письменных и в устных текстах. В целом анализ аннотированных корпусов подтверждает корреляцию между морфологическим богатством и свободой порядка слов в славянских языках, что может помочь нам в понимании динамических связей между морфологией и синтаксисом естественных языков и послужить квантитативной иллюстрацией того, как языки кодируют лексическую и синтаксическую информацию для эффективной коммуникации.

Об авторах
Янь Цзяньвэй
Чжэцзянский университет
Лю Хайтао
Чжэцзянский университет; Гуандунский университет иностранных языков и внешней торговли, Гуанчжоу
Библиография

1. Abeillé (ed.) 2003 — ​Abeillé A. (ed.). Treebanks: Building and using parsed corpora. Dordrecht: Kluwer Academic Publ., 2003.

2. Alzetta et al. 2019 — ​Alzetta C., Dell’Orletta F., Montemagni S., Venturi G. Inferring quantitative typological trends from multilingual treebanks. A case study. Lingue e linguaggio, 2019, XVIII(2): 209–242.

3. Bentz et al. 2017 — ​Bentz C., Alikaniotis D., Cysouw M., Ferrer-i-Cancho R. The entropy of words. Learnability and expressivity across more than 1000 languages. Entropy, 2017, 19(6): 1–32.

4. Bonfante et al. 2018 — ​Bonfante G., Guillaume B., Perrier G. Application of graph rewriting to natural language processing. Hoboken (NJ): John Wiley & Sons Inc., 2018.

5. Čech, Kubát 2018 — ​Čech R., Kubát M. Morphological richness of text. Taming the corpus: From inflection and lexis to interpretation. Fidler M., Cvrček V. (eds.). Cham: Springer, 2018, 63–77. DOI: 10.1007/978-3-319-98017-1_4.

6. Chen et al. 2016 — ​Chen R., Liu H., Altmann G. Entropy in different text types. Digital scholarship in the humanities, 2016, 32(3): 528–542.

7. Coloma 2017 — ​Coloma G. The existence of negative correlation between linguistic measures across languages. Corpus Linguistics and Linguistic Theory, 2017, 13(1): 1–26.

8. Comrie, Corbett (eds.) 1993 — ​Comrie B., Corbett G. G. (eds.). The Slavonic languages. London: Routledge, 1993.

9. Courtin 2018 — ​Courtin M. Mesures de distances syntaxiques entre langues àpartir de treebanks. Paris: Université Paris III — ​Sorbonne Nouvelle, 2018.

10. Covington, McFall 2010 — ​Covington M. A., McFall J. D. Cutting the Gordian knot: The moving-average type-token ratio (MATTR). Journal of Quantitative Linguistics, 2010, 17(2): 94–100.

11. Dryer 2013 — ​Dryer M. S. Order of subject, object and verb. The world atlas of language structures online. Dryer M. S., Haspelmath M. (eds.). Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. http://wals.info/chapter/81 (accessed 12 April 2020).

12. Durnovo 1932 — ​Дурново Н. Н. К вопросу о времени распада общеславянского языка. [Durnovo N. N. On the time of the split of Common Slavic.] Sborník prací I. sjezdu slovanských filologů v Praze, 1932, 514–526.

13. Fenk-Oczlon, Fenk 2014 — ​Fenk-Oczlon G., Fenk A. Complexity trade-offs do not prove the equal complexity hypothesis. Poznań Studies in Contemporary Linguistics, 2014, 50(2): 145–155.

14. Firbas 1992 — ​Firbas J. Functional sentence perspective in written and spoken communication. Cambridge: Cambridge Univ. Press, 1992.

15. Futrell et al. 2015 — ​Futrell R., Mahowald K., Gibson E. Quantifying word order freedom in dependency corpora. Proc. of the 3rd International Conf. on Dependency Linguistics (Depling 2015). Nivre J., Hajičová E. (eds.). Uppsala: Uppsala Univ., 2015, 91–100.

16. Greenberg 1960 — ​Greenberg J. H. A quantitative approach to the morphological typology of language. International Journal of American Linguistics, 1960, 26(3): 178–194.

17. Greenberg 1963 — ​Greenberg J. H. Some universals of grammar with particular reference to the order of meaningful elements. Universals of language. Greenberg J. H. (ed.). Cambridge (MA): MIT Press, 1963, 73–113.

18. Gries 2013 — ​Gries S. T. Statistics for linguistics with R. Berlin: De Gruyter, 2013.

19. Gulordava, Merlo 2015 — ​Gulordava K., Merlo P. diachronic trends in word order freedom and dependency length in dependency-annotated corpora of Latin and Ancient Greek. Proc. of the 3rd International Conf. on Dependency Linguistics (Depling 2015). Nivre J., Hajičová E. (eds.). Uppsala: Uppsala Univ., 2015, 121–130.

20. Gutierrez-Vasques, Mijangos 2018 — ​Gutierrez-Vasques X., Mijangos V. Comparing morphological complexity of Spanish, Otomi and Nahuatl. Proc. of the Workshop on Linguistic Complexity and Natural Language Processing. Becerra-Bonache L., Jiménez-López M. D., Martín-Vide C., Torrens-Urrutia A. (eds.). Santa Fe (NM): Association for Computational Linguistics, 2018, 30–37.

21. Hajič 1998 — ​Hajič J. Building a syntactically annotated corpus: The Prague dependency treebank. Issues of valency and meaning. Hajičová E. (ed.). Prague: Charles Univ. Press, 1998, 106–132.

22. Heringer 1993 — ​Heringer H. J. Dependency syntax: Basic ideas and the classical model. Syntax: An international handbook of contemporary research. Vol. 1. Jacobs J., von Stechow A., Sternefeld W., Vennemann T. (eds.). Berlin: Walter de Gruyter, 1993, 298–316.

23. Hudson 1995 — ​Hudson R. Measuring syntactic difficulty. Ms., 1995. https://dickhudson.com/wp-content/uploads/2013/07/Difficulty.pdf.

24. Jakobson 1936 — ​Jakobson R. Beitrag zur allgemeinen Kasuslehre: Gesamtbedeutungen der russischen Kasus. Travaux du Cercle Linguistique de Prague, 1936, 4: 240–288.

25. Janda 2006 — ​Janda L. A. Slavic languages. Encyclopedia of language and linguistics. Brown K. (ed.). Amsterdam: Elsevier, 2006, 415–418.

26. Jiang, Liu (eds.) 2018 — ​Jiang J., Liu H. (eds.). Quantitative analysis of dependency structures. Berlin: De Gruyter, 2018.

27. Kelih 2010 — ​Kelih E. The type-token relationship in Slavic parallel texts. Glottometrics, 2010, 20: 1–11.

28. Klein et al. (eds.) 2018 — ​Klein J., Joseph B., Fritz M. (eds.). Handbook of comparative and historical Indo-European linguistics. Berlin: De Gruyter Mouton, 2018.

29. Köhler 1987 — ​Köhler R. System theoretical linguistics. Theoretical Linguistics, 1987, 14(2–3): 241–258.

30. Köhler 2005 — ​Köhler R. Synergetic linguistics. Quantitative linguistics: An international handbook. Köhler R., Altmann G., Piotrowski R. G. (eds.). Berlin: De Gruyter, 2005, 760–774.

31. Koplenig et al. 2017 — ​Koplenig A., Meyer P., Wolfer S., Müller-Spitzer C. The statistical trade-off between word order and word structure: Large-scale evidence for the principle of least effort. PLOS ONE, 2017, 12(3): e0173614.

32. Krause, Slocum 2020 — ​Krause T. B., Slocum J. Online lessons at the Linguistics Research Center at the University of Texas at Austin: Old Russian. 2020.

33. Kuboň et al. 2016 — ​Kuboň V., Lopatková M., Hercig T. Searching for a measure of word order freedom. Proc. of the 16th ITAT Conf. Information Technologies — ​Applications and Theory (Tatranské Matliare, 2016). Brejová B. (ed.). CreateSpace Independent Publishing Platform, 2016, 11–17. http://ceur-ws.org/Vol-1649/11.pdf.

34. Levshina 2019 — ​Levshina N. Token-based typology and word order entropy: A study based on Universal Dependencies. Linguistic Typology, 2019, 23(3): 533–572.

35. Li, Han 2013 — ​Li B., Han L. Distance weighted cosine similarity measure for text classification. Intelligent Data Engineering and Automated Learning — ​IDEAL 2013. Yin H., Tang K., Gao Y., Klawonn F., Lee M., Li B., Weise Th., Yao X. (eds.). Berlin: Springer, 2013, 611–618.

36. Liu 2010 — ​Liu H. Dependency direction as a means of word-order typology: A method based on dependency treebanks. Lingua, 2010, 120(6): 1567–1578.

37. Liu, Cong 2013 — ​Liu H., Cong J. Language clustering with word co-occurrence networks based on parallel texts. Chinese Science Bulletin, 2013, 58(10): 1139–1144.

38. Liu, Xu 2012 — ​Liu H., Xu C. Quantitative typological analysis of Romance languages. Poznań Studies in Contemporary Linguistics, 2012, 48(4): 597–625.

39. Lunt 1987 — ​Lunt H. G. On the relationship of Old Church Slavonic to the written language of early Rus’. Russian Linguistics, 1987, 11(2/3): 133–162.

40. Lunt 2001 — ​Lunt H. G. Old Church Slavonic grammar. New York: Mouton de Gruyter, 2001.

41. Mathesius 1942 — ​Mathesius V. Ze srovnávacích studií slovosledných. Časopis pro moderní filologii, 1942, 28: 181–190, 302–307.

42. Maučec, Brest 2019 — ​Maučec M. S., Brest J. Slavic languages in phrase-based statistical machine translation: A survey. Artificial Intelligence Review, 2019, 51(1): 77–117.

43. McFadden 2003 — ​McFadden T. On morphological case and word-order freedom. Proc. of the 29th Annual Meeting of the Berkeley Linguistics Society. General session and parasession on phonetic sources of phonological patterns: Synchronic and diachronic explanations. Nowak P. M., Yoquelet C., Mortensen D. (eds.). Berkeley (CA): Sheridan Books, 2003, 295–306.

44. Mel’čuk 1988 — ​Mel’čuk I. Dependency syntax: Theory and practice. Albany (NY): State Univ. of New York Press, 1988.

45. Muflikhah, Baharudin 2009 — ​Muflikhah L., Baharudin B. Document clustering using concept space and cosine similarity measurement. ICCTD 2009 — ​2009 International Conf. on Computer Technology and Development. Jusoff H. K., Othman M., Xie Y. (eds.). Institute of Electrical and Electronic Engineers, 2009, 58–62.

46. Nofal 2014 — ​Nofal K. H. Syntactic deviations / ​stylistic variants in poetry: Chaucer and T. S. Eliot as models. International Journal of English Language and Literature Studies, 2014, 3(4): 283–310.

47. Plungian 2018 — ​Плунгян В. А. Лингвистика в XXI веке: проблемы, перспективы, точки роста. Слово.ру: Балтийский акцент, 2018, 9(1): 7–12. [Plungian V. A. Linguistics in the 21st century: Problems, Prospects, and Growth Points. Slovo.ru: Baltic Accent, 2018, 9(1): 7–12.]

48. Popescu, Altmann 2008 — ​Popescu I-I., Altmann G. Hapax legomena and language typology. Journal of Quantitative Linguistics, 2008, 15(4): 370–378.

49. Sapir 1921 — ​Sapir E. Language: An introduction to the study of speech. New York: Harcourt, Brace, 1921.

50. Shannon 1948 — ​Shannon C. E. A mathematical theory of communication. Bell System Technical Journal, 1948, 27(4): 623–656.

51. Shosted 2006 — ​Shosted R. K. Correlating complexity: A typological approach. Linguistic Typology, 2006, 10(1): 1–40.

52. Siewierska, Uhlířová 1998 — ​Siewierska A., Uhlířová L. An overview of word order in Slavic languages. Constituent order in the languages of Europe. Siewierska A. (ed.). Berlin: Mouton de Gruyter, 1998, 105–150.

53. Sinnemäki 2014 — ​Sinnemäki K. Complexity trade-offs: A case study. Measuring grammatical complexity. Newmeyer F. J., Preston L. B. (eds.). New York: Oxford Univ. Press, 2014, 179–201.

54. Smetonienė 2019 — ​Smetonienė A. Patterns of morphological integration of Slavic loan nouns in Petkevičius’ Catechism (1598) as an indication of their origin and chronology. Studia z Filologii Polskiej i Słowiańskiej, 2019, 54. DOI: 10.11649/sfps.1766.

55. Sussex, Cubberley 2006 — ​Sussex R., Cubberley P. The Slavic languages. Cambridge: Cambridge Univ. Press, 2006.

56. Tesnière 1959 — ​Tesnière L. Eléments de la syntaxe structurale. Paris: Klincksieck, 1959.

57. Tesnière 2015 — ​Tesnière L. Elements of structural syntax. Transl. from French by Osborne T., Kahane S. Amsterdam: John Benjamins, 2015.

58. Trubetzkoy 1927 — ​Трубецкой Н. С. К проблеме русского самопознания. Париж: Евразийское книгоизд-во, 1927. [Trubetzkoy N. S. K probleme russkogo samopoznaniya [On the problem of Russian self-awareness]. Paris: Eurasian Publishing House, 1927.]

59. Wang, Liu 2017— Wang Y., Liu H. The effects of genre on dependency distance and dependency direction. Language Sciences, 2017, 59(866): 135–147.

60. Whitney 1889 — ​Whitney W. D. Sanskrit Grammar. Cambridge (MA): Harvard Univ. Press, 1889.

61. Xanthos, Gillis 2010— Xanthos A., Gillis S. Quantifying the development of inflectional diversity. First Language, 2010, 30(2): 175–198.

62. Xanthos, Guex 2015 — ​Xanthos A., Guex G. On the robust measurement of inflectional diversity. Recent contributions to quantitative linguistics. Tuzzi A., Benešová M., Macutek J. (eds.). Berlin: De Gruyter Mouton, 2015, 241–254.

63. Xanthos et al. 2011 — ​Xanthos A., Laaha S., Gillis S., Stephany U., Aksu-Koç A., Christofidou A., Gagarina N., Hrzica G., Ketrez F. N., Kilani-Schoch M. et al. On the role of morphological richness in the early development of noun and verb inflection. First Language, 2011, 31(4): 461–479.

64. Zeman et al. 2019 — ​Zeman D., Nivre J., Abrams M., Aepli N., Agić Ž., Ahrenberg L., Aleksandravičiūtė G., Antonsen L., Aplonova K., Aranzabe M. J. et al. Universal Dependencies 2.5. Universal Dependecies Consortium, 2019. https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-3105.

65. Zimmerling 2012 — ​Циммерлинг А. В. Системы порядка слов в славянских языках. Вопросы языкознания, 2012, 5: 3–37. [Zimmerling A. V. Word-order systems in Slavic languages. Voprosy Jazykoznanija, 2012, 5: 3–37.]

66. Zipf 1965 — ​Zipf G. K. Human behavior and the principle of least effort: An introduction to human ecology. New York: Hafner Publishing Company, 1965.

Полная версия доступна только подписчикам
Подпишитесь прямо сейчас