3533 ГРУППИРОВКА ГОРОДОВ С ПРИМЕНЕНИЕМ КЛАСТЕРНОГО АНАЛИЗА

Лабораторная работа № 1

ГРУППИРОВКА ГОРОДОВ С ПРИМЕНЕНИЕМ

КЛАСТЕРНОГО АНАЛИЗА

(курс «Статистика»)

1. Цель работы

Ознакомление с методами кластерного анализа на примере классификации населенных пунктов.

2. Общие положения

Кластерный анализ - многомерная статистическая процедура, которая упорядочивает объекты в сравнительно однородные группы (кластеры или таксоны), методы построения кластеров - это и есть кластерный анализ. Кластерный анализ применяется в экономике, маркетинге, социологии, медицине, биологии.

 

Многомерные группировки

Группировка – это распределение единиц по группам в соответствии со следующим принципом: различия между единицами, отнесенными к одной группе, должны быть меньше, чем между единицами, отнесенными к разным группам.

Группировка производится по варьирующим характеристикам (признакам), по которым будет проводиться группировка так называемых группировочных признаков и их значений, отделяющих одну группу от другой (интервал группировки).

Если группированный признак один, то группировка называется простой или монистической. Если же группировочных признаков несколько, то различают иерархическую группу и многомерную группировку. Признаки в многомерных группировках равноправны. Например: предприятия группируются по эффективности и финансовому положению. Финансовое положение характеризует набор равноправных признаков. Методом многомерной группировки является кластерный анализ, по которому элементы совокупности объединяются в группы или классы двумя основными способами: либо по расстоянию между ними в производстве признаков, либо по тесноте корреляций связи.

 

Основы кластерного анализа

Классификация объектов по осмысленным группам – кластеризация – является важной процедурой в области социально-экономических исследований. «Кластерный анализ» - это общее название множества вычислительных процедур, используемых при создании классификации. В результате работы с процедурами образуются «кластеры» или группы очень похожих объектов. Более точно кластерный метод – это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов,  и затем упорядочивающая объекты в сравнительно однородные группы.

Различные приложения кластерного анализа можно свести к четырём основным задачам:

1)            разработка типологии или классификации;

2)            исследование полезных концептуальных схем группирования объектов;

3)            порождение гипотез на основе исследования данных;

4)            проверка гипотез или исследования для определения, действительно ли типы, выделенные тем или иным способом, присутствуют в имеющихся данных.

Главная цель кластерного анализа  - нахождение групп схожих объектов в выборке данных. Эти группы удобно называть кластерами. Не существует общепринятого или просто полезного определения термина «кластер». Несмотря на отсутствие определения, ясно, что кластеры обладают теми или иными свойствами, наиболее важными из которых являются плотность, дисперсия, форма и отделимость.

Каждая единица совокупности в кластерном анализе рассматривается как точка в заданном признаковом пространстве. Значение каждого из признаков у данной единицы служит ее координатой в этом «пространстве» по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, признаковое пространство - это область варьирования всех признаков совокупности изучаемых явлений. Если мы упо­добим это пространство обычному пространству, имеющему евклидову метрику, то тем самым мы получим возможность измерять «расстояния» между точками признакового пространства. Эти расстояния называют евклидовыми. Их вычисляют по тем же правилам, что и в обычной евклидовой геометрии. На плоско­сти, т.е. в двухмерном пространстве, расстояние между точками А и В равно корню квадратному из суммы квадратов разностей координат этих точек по оси абсцисс и по оси ор­динат - на основании теоремы Пифагора (рис.1). Евклидово расстояние вычисляется по формуле:

.         (1)

Плотность – это свойство, которое позволяет определить кластер как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства, содержащими либо мало точек, либо не содержащими их вовсе.

Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. Кластер можно называть плотным, если все точки находятся от центра тяжести, и неплотным, если они разбросаны вокруг центра.

Форма кластер – это расположение точек в пространстве.

Разработанные кластерные методы образуют семь основных семейств:

1)            иерархические агломеративные методы;

2)            иерархические димизивные методы;

3)            итеративные методы группировки;

4)            методы поиска модальных значений плотности;

5)            факторные методы;

6)            методы сгущений;

7)            методы, использующие теорию графов.

Наиболее известными семействами кластерных методов, используемыми в социальных науках, являются иерархические агломеративные, иерархические дивизивные и факторные.

К иерархическим агломеративным  методам относятся: метод одиночной связи, метод полной связи, метод Уорда, метод средней связи.

Рассмотрим алгоритм средней связи более подробно.

 

Алгоритм «средней связи»

Представим каждый i-ый объект выборки точкой в m-мерном пространстве признаков. При классификации объектов в качестве меры сходства обычно используются показатели расстояния или меры близости (как правило, евклидово расстояние). При классификации признаков в качестве меры сходства обычно выступают коэффициенты первой корреляции между признаками.

Для определения евклидова расстояния между k-й и l-й точками dkl исходные данные xij нормируются так, как признаки имеют различную размерность.

(2)

(3)

где i=1, - номер объекта;  j=1, - номер признака;

- среднее xj по всем точкам выборки;

- стандартное отклонение xj.

Евклидово расстояние определить по формуле:

.                                            (4)

Объединение объектов в класс, или объединение кластеров q и s, осуществляется по формуле dqs=min dkl . После объединения новый кластер выступает как отдельный объект. Матрица евклидовых расстояний пересчитывается по формуле:

Dl,q+s = mq dkl /( mq + ms)+ms dls /((mq + ms), (5)

где mq число объектов в классе q;

ms – число объектов в кластере s.

Подобный алгоритм называется алгоритмом средней связи. Процесс объединения продолжается до получения одного кластера, при этом по результатам объединения можно выделить отдельные классы объектов и выявить объекты, не вошедшие ни в один из классов.

Результат оформления в виде дендрограммы (рис. 2), на которой по оси абсцисс откладываются номера объектов, а по оси ординат – евклидовы расстояния (D).

При объединении объектов в классы координаты нового объекта получаются как координаты центра тяжести.

Рис. 2. Дендрограмма евклидовых расстояний

 

 

 

 

 

 

 

 

 

 

 

Процесс объединения продолжается до получения одного кластера, при этом по результатам объединения  можно выделить отдельные классы объектов и выявить объекты, не вошедшие ни в один из классов.

 

КЛАССИФИКАЦИЯ ГОРОДОВ

Город - интеграл человеческой деятельности, средоточие разнообразных видов выполняемых им функций, которые определяют "лицо" города. Обычно функции подразделяются на экономические (промышленные, транспортные и т.д.) и неэкономические (административно-политические, культурные, научные, организационные).

Среди функций города выделяют также градообразующие и градообслуживающие. Деятельность города по обслуживанию внегородских связей - экономических, культурных, административных и других, направленных на выполнение основных задач данного города в районном или общегосударственном масштабе, называют градообразующей, а удовлетворяющую потребности самого города - градообслуживающей.

Города делятся на моно- и полифункциональные. Первые, особенно в России, - это преимущественно небольшие поселения курортного, научного профиля и т.д., а также города - районные центры.

Среди полифункциональных городов наиболее полным набором функций и мощным их развитием выделяются, помимо Москвы и Санкт-Петербурга, также межрегиональные (например, Самара, Новосибирск) и некоторые областные и краевые центры.

Функциональная структура влияет на многие черты города, в первую очередь на численность и динамику его населения. Как правило, многофункциональные города отличаются большой людностью и более быстрым ростом населения. Функциональная структура города влияет на половозрастной и профессиональный состав населения, его образовательный уровень, образ жизни и т.д.

Важными разделами изучения городов являются их классификация и типология. Под классификацией обычно понимают распределение городов по какому-либо признаку или их сочетанию. Типология - более высокий уровень обобщения, позволяющий дать комплексную характеристику городов и на этой основе наметить стратегию их развития; выделение совокупности городов по наиболее важным признакам.

Наиболее часто используется классификация городских поселений:

1) по величине (численности населения);

2) функциям;

3) степени  участия  в территориальном  разделении  труда;

4) генетическим   признакам;

5) по экономико-географическому положению.

Классификация городов по величине имеет широкое применение. В зависимости от численности населения в официальных статистических источниках и градостроительной практике выделяют следующие группы городов:

малые - до 20 тыс. жителей;

средние – 20 - 100 тыс. жителей;

крупные – 100 - 500 тыс. жителей;

крупнейшие - 500 тыс. жителей и выше;

города-миллионеры.

При группировке городов по величине классификация в известной мере совпадает с типологией: можно говорить о малых, больших, городах-миллионерах как об определенных типах поселений.

Классификации и типологии городов по функциям отражают их наиболее важные особенности. По преобладанию и сочетанию различных функций можно выделить пять основных типов городов.

  1. Многофункциональные, сочетающие административно-политические, культурные, экономические функции градообразующего значения с развитой промышленностью и транспортом. Обычно это крупные города,  являющиеся важными районообразующими центрами с широкими и разнообразными связями.
  2. Города с резким преобладанием промышленных и транспортных функций межрайонного значения. Схематично этот тип городов можно разделить на промышленные, транспортные, промышленно-транспортные.
  3. Города с преобладанием административных, культурных и обслуживающих функций. Обычно это небольшие поселения - местные центры административных районов с развитыми организационно-хозяйственными видами деятельности.
  4. Города-курорты, составляющие особую группу.
  5. Быстро развивающиеся в последнее время города - научно-экспери- ментальные центры, или города науки.

Для объективного выделения функциональных типов городов по составу их функций пользуются обычно данными о распределении занятого населения по отраслям и видам деятельности, разделяя при этом работающих в градообразующей и градообслуживающей сферах деятельности.

По степени участия в территориальном разделении труда выделяют города, участвующие преимущественно в местных связях (они обслуживают небольшие территории и являются местными центрами), во внутрирайонном, межрайонном, международном разделении труда. Эти различия отражают масштабность градообразующих функций, выполняемых городом.

Для генетической классификации городов их разделяют по времени и причинам возникновения, а также учитывают степень сохранения различных исторических черт в современной планировке и облике города. Такая классификация важна, например, при изучении внутренней географии города, для решения его планировочных проблем.

И наконец, наиболее сложная и пока наименее разработанная типология городов по их экономико-географическому положению (ЭГП), которая позволяет определить направление будущего развития города путем оценки потенциальных возможностей района или какой-то его фокусной точки. В зависимости от ЭГП выделяют различные типы городов, например:

города, расположенные в узлах транспортных путей (Нижний Новгород, Новосибирск, Красноярск);

города, расположенные в крупных добывающих районах (Донецк, Рудный);

города в районах с развитой обрабатывающей промышленностью (Ярославль, Иваново, Серпухов);

города в районах интенсивного сельского хозяйства (Краснодар, Ставрополь).

Изучение функциональной структуры городов, их ЭГП, места в территориальном разделении труда, связей позволяет понять роль городов в качестве опорных элементов систем расселения разного типа и ранга, которые формируются в ходе эволюции урбанизации и развития различных видов деятельности.

Многомерная квалификация позволяет разбить города не по одному а по нескольким равноправным признакам.

3. Содержание домашней подготовки

3.1. Ознакомиться с целью работы.

3.2. Ознакомиться с методами кластерного анализа и существующей классификацией городов.

3.3. Подготовить ответы на контрольные вопросы.

4. Порядок  выполнения  работы

4.1. С помощью программы  stat.exe,  табл. 1 и табл. 2  исходных данных построить дендрограмму.

4.2. Используя дендрограмму, разбить объекты на выбранное количество кластеров.

4.3. Повторить п.2 и п.3 , выбрав другие информативные признаки.

4.4. Описать полученные кластеры и дать им наименование.

 

5. Содержание отчета о работе

5.1. Теоретическая часть.

5.2. Дендрограммы по различным признакам.

5.3. Описание полученных кластеров.

5.4. Выводы.

6. Контрольные вопросы

6.1. Основные этапы кластерного анализа.

6.2. Методы выбора информативных признаков.

6.3. Методы оценки сходства кластеров.

6.4. Семейства методов кластерного анализа для создания кластеров.

6.5. Понятие и функции города.

6.6. Классификация городских поселений.