3663 МАШИННАЯ ОБРАБОТКА ЗНАНИЙ И ТЕКСТОВ НА ЕСТЕСТВЕННЫХ ЯЗЫКАХ

Морфологический анализ

Цель работы

Изучение способа морфологического анализа форм слов русского языка.

Методические указания

Морфологический анализ, как и синтаксический анализ, применяются для обработки текстовой информации, например машинного перевода. На этапе морфологического анализа в тексте распознаются слова и разделители. Для каждого слова на основании его морфологии определяется список всех возможных основных (главных) форм и их грамматические характеристики.

Существует несколько способов морфологического анализа. В соответствии с подходом, предложенным Г.Г. Белоноговым, любую форму слова (или словоформу) можно представить в виде

словоформа = основа + окончание.

Морфологический анализ производится с помощью словаря основ (СО) и вспомогательных таблиц: таблицы окончаний (ТО), морфологической таблицы (МТ) и таблицы грамматической информации (ТГИ).

Общий порядок морфологического анализа.

  1. Из ТО выбирается окончание и производится попытка отделить это окончание от данной формы слова и получить основу.
  2. Если попытка успешна, то перейти к шагу 3, иначе перейти к шагу 5.
  3. Проверяется наличие полученной основы в СО.
  4. Если основа содержится в СО, то запомнить номер окончания Nо из ТО и перейти к шагу 6, иначе перейти к шагу 5.
  5. Если все окончания из ТО проверены, то перейти к шагу 10, иначе перейти к шагу 1.
  6. В СО по полученной основе определить номер морфологического класса NМ.
  7. По имеющимся NМ и Nо определить в МТ номер грамматической информации NГИ.
  8. По NГИ получить из ТГИ грамматические характеристики формы слова.
  9. Добавить форму и ее грамматические характеристики в список результатов и перейти к шагу 5.
  10. Закончить алгоритм.

Приведем таблицы, необходимые только для морфологического анализа существительных русского языка. СО содержит основы всех частей речи русского языка с указанием номера морфологического класса NМ и, следовательно, имеет достаточно большой размер. Поэтому вместо СО представлена таблица морфологических классов (ТМК) (табл. 1.1) только для некоторых типов существительных, позволяющая определить NМ. ТМК также содержит пример слова, относящегося к данному классу, и типичные окончания:

- именительного падежа, единственного числа;

- творительного падежа, единственного числа;

- именительного падежа, множественного числа;

- родительного падежа, множественного числа.

Символом «+» в ТМК и далее обозначается отсутствие окончания (пустое окончание).

Таблица 1.1. Таблица морфологических классов

NМ

Слово-

представитель

Окончания

NМ

Слово-

представитель

Окончания

Существительные мужского рода неодушевленные

00

глаз

+; ом; а; +

04

случай

й; ем; и; ев

01

телефон

+; ом; ы; ов

05

бланк

+; ом; и; ов

02

тираж

+; ом; и; ей

06

цвет

+; ом; а; ов

03

фонарь

ь; ем; и; ей

07

вкладыш

+; ем; и; ей

Существительные мужского рода одушевленные

08

кузнец

+; ом; ы; ов

11

конь

ь; ем; и; ей

09

врач

+; ом; и; ей

12

сапожник

+; ом; и; ов

10

пролетарий

й; ем; и; ев

 

 

 

Существительные женского рода неодушевленные

13

грань

ь; ю; и; ей

16

линия

я; ей; и; й

14

колба

а; ой; ы; +

17

книга

а; ой; и; +

15

задача

а; ей; и; +

18

улица

а; ей; ы; +

Существительные женского рода одушевленные

19

нутрия

я; ей; и; й

21

санитарка

а; ой; и; +

20

женщина

а; ой; ы; +

22

наводчица

а; ей; ы; +

Существительные среднего рода

23

место

о; ом; а; +

26

жилище

е; ем; а; +

24

поле

е; ем; я; ей

27

колено

о; ом; и; ей

25

сомнение

е; ем; я; й

28

побережье

е; ем; я; ий

В ТО (табл. 1.2) представлен восьмеричный код Nо и соответствующее ему окончание.

Таблица 1.2. Таблица окончаний

01 – ами

02 – его

03 – еми

04 – ему

05 – емя

06 – ете

07 – ешь

10 – ими

11 – ите

12 – ишь

13 – ого

14 – ому

15 – умя

16 – ыми

17 – ями

20 – ам

21 – ат

22 – ах

23 – ая

24 – ев

25 – ее

26 – ей

27 – ем

30 – ет

31 – ех

32 – ею

33 – ие

34 – ий

35 – им

36 – ит

37 – их

40 – ми

41 – мя

42 – ов

43 – ое

44 – ой

45 – ом

46 – ою

47 – ум

50 – ут

51 – ух

52 – ую

53 – ые

54 – ый

55 – ым

56 – ых

57 – ют

60 – юю

61 – ям

62 – ят

63 – ях

64 – яя

65 – +

66 – а

67 – е

70 – и

71 – й

72 – о

73 – у

74 – ы

75 – ь

76 – ю

77 – я

МТ (табл. 1.3) включает для каждого морфологического класса NМ (подчеркнутое число в заголовке столбца) данные о соответствии номера окончания Nо (левая часть числовой пары) грамматической информации NГИ (правая часть числовой пары).

Таблица 1.3. Морфологическая таблица

00

01

02

03

04

05

06

07

01-37

20-36

22-40

45-22

65-04

66-16

67-26

73-17

01-37

20-36

22-40

42-33

45-22

65-02

66-06

67-26

73-17

74-32

01-37

20-36

22-40

26-33

45-22

65-02

66-06

67-26

70-32

73-17

17-37

26-33

27-22

61-36

63-40

67-26

70-32

75-02

76-17

77-06

17-37

24-33

27-22

61-36

63-40

67-26

70-32

71-02

76-17

77-06

01-37

20-36

22-40

42-33

45-22

65-02

66-06

67-26

70-32

73-17

01-37

20-36

22-40

42-33

45-22

65-02

66-16

67-26

73-17

01-37

20-36

22-40

26-33

27-22

65-02

66-06

67-26

70-32

73-17

08

09

10

11

12

13

14

15

01-37

20-36

22-40

42-34

45-22

65-01

66-13

67-26

73-17

74-31

01-37

20-36

22-40

26-34

45-22

65-01

66-13

67-26

70-31

73-17

17-37

24-34

27-22

61-36

63-40

70-27

71-01

76-17

77-13

17-37

26-34

27-22

61-36

63-40

67-26

70-31

75-01

76-17

77-13

01-37

20-36

22-40

42-34

45-22

65-01

66-13

67-26

73-17

74-31

17-37

26-33

61-36

63-40

70-12

75-02

76-22

01-37

20-36

22-40

44-22

65-33

66-01

67-20

73-21

74-16

01-37

20-36

22-40

26-22

65-33

66-01

67-20

70-16

73-21

Окончание табл. 1.3

16

17

18

19

20

21

22

23

17-37

26-22

61-36

63-40

70-12

71-33

76-21

77-01

01-37

20-36

22-40

44-22

65-33

66-01

67-20

70-16

73-21

01-37

20-36

22-40

26-22

65-33

66-01

67-20

73-21

74-16

17-37

26-22

61-36

63-40

70-11

71-34

76-21

77-01

01-37

20-36

22-40

44-22

65-34

66-01

67-20

73-21

74-15

01-37

20-36

22-40

44-22

65-34

66-01

67-20

70-15

73-21

01-37

20-36

22-40

26-22

65-34

66-01

67-20

73-21

74-15

01-37

20-36

22-40

45-22

65-33

66-16

67-26

72-02

73-17

24

25

26

27

28

 

 

 

17-37

26-33

27-22

61-36

63-40

67-03

76-17

77-16

17-37

27-22

61-36

63-40

67-02

70-26

71-33

76-17

77-16

01-37

20-36

22-40

27-22

65-33

66-16

67-03

73-17

17-37

26-33

45-22

61-36

63-40

66-06

67-26

70-32

72-02

73-17

17-37

27-22

34-33

61-36

63-40

67-03

76-17

77-16

 

 

 

ТГИ (табл. 1.4) содержит пары чисел в восьмеричной нотации. Первое число NГИ – номер грамматической информации. Второе число состоит из двух цифр. Первая цифра указывает на грамматическое число: 1 – единственное; 2 – множественное. Вторая цифра означает падеж существительного: 1 – именительный; 2 – родительный; 3 – дательный; 4 – винительный; 5 – творительный; 6 – предложный.

Таблица 1.4. Таблицы грамматической информации

01 – 11;

02 – 11, 14;

03 – 11, 14, 16;

04 – 11, 14 ,22;

05 – 11, 22, 24;

06 – 12;

07 – 12, 13, 15, 16;

10 – 12, 13, 16;

11 – 12, 13, 16, 21;

12 – 12, 13, 16, 21, 24;

13 – 12, 14;

14 – 12, 14, 21;

15 – 12, 21;

16 – 12, 21, 24;

17 – 13

20 – 13, 16;

21 – 14;

22 – 15;

23 – 15, 22;

24 – 15, 22, 24;

25 – 15, 23;

26 – 16;

27 – 16, 21;

30 – 16, 21, 24;

31 – 21;

32 – 21, 24;

33 – 22;

34 – 22, 24;

35 – 22, 24, 26;

36 – 23;

37 – 25;

40 – 26

Рассмотрим последовательность действий при морфологическом анализе на примере слова «глаза». Данную форму можно представить как разбиения на основу и окончание двумя способами: