snikolenko: (Default)
[personal profile] snikolenko
На нашем этаже в АУ вдруг, никого не предупредив, поменяли местами мужской и женский туалеты.

Date: 2011-05-17 01:46 pm (UTC)
From: [identity profile] olga-philka.livejournal.com
Хыхыхы много было конфузов? :)

Date: 2011-05-17 01:47 pm (UTC)
From: [identity profile] passiondance.livejournal.com
Блин, я везде регулярно захожу в мужские туалеты, ничо страшного)

Date: 2011-05-17 08:36 pm (UTC)
From: [identity profile] binary-dima.livejournal.com
Это тебе ничего страшного. Cтатистику мужских инфарктов ты знаешь?

Date: 2011-05-18 05:22 am (UTC)
From: [identity profile] passiondance.livejournal.com
у нас не так много мужских туалетов с писсуарами)

Date: 2011-05-17 01:55 pm (UTC)
From: [identity profile] janes9.livejournal.com
А у Кости на работе вообще нет женского туалета. Вот в здании Администрации г. Калуги есть, хоть и чёрт знает где (в отличие от мужского). А в филиале мат-меха на 14 линии - нет.

Date: 2011-05-17 02:26 pm (UTC)
From: [identity profile] o-lush.livejournal.com
На 14 линии женский точно есть :)

Date: 2011-05-17 03:24 pm (UTC)
From: [identity profile] janes9.livejournal.com
На том этаже, где человек работает, точно нет. :)

Date: 2011-05-17 02:43 pm (UTC)
From: [identity profile] o-raznom2011.livejournal.com
Эх, а первое апреля давно кончилось:)

Date: 2011-05-17 03:57 pm (UTC)
From: [identity profile] edwardahirsch.livejournal.com
Мало того, что фундаментальную группу сделали нетривиальной, теперь ещё и туалет искать - так же и заблудиться можно :)

А какое-нибудь разумное объяснение этому поступку имеется - ну, кроме того, что иначе скучно?

Date: 2011-05-17 04:31 pm (UTC)
From: [identity profile] darnley.livejournal.com
Следует отметить, что поменяли не туалеты, а таблички на туалетах :)

Date: 2011-05-17 05:45 pm (UTC)
From: [identity profile] edwardahirsch.livejournal.com
Может быть, это сделали таки ещё первого апреля, а сегодня кто-то первый наконец-то заметил? :)

Date: 2011-05-17 07:41 pm (UTC)
From: [identity profile] hooraytothebard.livejournal.com
Признавайтесь, кто?)

Date: 2011-05-17 06:55 pm (UTC)
From: [identity profile] annsmile.livejournal.com
A u nas v universitete ni kogo ne preduprediv na odnom iz etazhej ustanovili elektronnyjkodovyj zamok na dveri zhenskogo tualeta. Absurd............ ))

cool:)

Date: 2011-05-22 09:27 pm (UTC)
From: [identity profile] glori8633130.livejournal.com
Крайне интересный материал, я просто в восторге!

Date: 2011-06-06 02:55 pm (UTC)
From: [identity profile] maxim boyko (from livejournal.com)
Здравствуйте, Сергей!

Я студент, пишу диплом на тему распознавания тональности текстового сообщения. Начал с наивного байесовского классификатора (так я думал). Ознакомился с вашими лекциями, в частности с "Байесовскими классификаторами". Поясню как я делал.

У меня есть две выборки с позитивными и негативными сообщениями. Я извлекал все слова из них и у меня поличалось два словаря - негативный и позитивный. Затем я находил вероятности p(wt|cj ) = число использований слова wt во всех негативных/позитивных сообщениях делить на всего слов в негативных/позитивных сообщениях. Похоже на мультивариантную модель.


Для классификации я смастачил свою меру: мера(позитив) = Сумма(-1/Ln(p(wt|позитив))),

мера(негатив) = Сумма(-1/Ln(p(wt|негатив))).

Затем сравниваю какая мера больше. Результаты более или менее, от 70% - до 80% на тестовых данных.


Другой мой вариант схож с многомерным наивным байесом, при той же мере.

Вообще, я немного запутался во всех вероятностях и в том как в итоге классифицировать (какой мерой).

В каких то источниках предлагается классифицировать таким образом: p1·p2 ... p|d|/(p1·p2 ... p|d|+(1–p1)·(1–p2 ... (1–p|d|))>W, где pi=P(wi=1|c), W - заданный пользователем порог.

На википедии предлогается таким образом классифицировать: http://ru.wikipedia.org/wiki/Классификация_текстов . Здесь берется сумма логорифмов вероятностей, что в принципе похоже на мультиномиальную модель, но отсутствует множитель Nit.


Если исходить из того как написано в Вашей лекции для многомерного наивного байеса, то необходимо суммировать логарифмы вероятности вхождения/невхождения для всех слов из словаря, а у меня словарь состоит из 40 000 слов, достаточно затратно все это считать. Можно ли вообще отбросить вероятности слов котрые не входят в сообщение? Повлияет ли это на классификацию?

Получается что при классификации по многомерной наивной модели, чем меньше сумма (т.к. логарифм 0<х<1 будет отрицательным), тем вероятнее что сообщение относится к данному классу? Но здесь кроется еще один момент. Допустим есть у нас в словаре слово, которое было употреблено всего один раз, соответственно и вероятность будет очень маленькая. Но когда мы будем классифицировать и нам попадется данное слово, то логарифм от очень малой вероятности даст относительно большое по модулю отрицательное число. Получится что слова, которые очень редко встречаются вносят решающий вклад в классификацию, но ведь это не правильно?

Знаю что я плохо понимаю математику, но мне хочется разобраться, понять, что я не так понимаю, где я ошибаюсь в рассуждениях. Очень надеюсь на Вашу помощь. Только пожалуйста не отправляйте меня читать учебники не прочитав мое письмо до конца. Ну, а если прочитали, и сочли что мне просто не хватает знаний и понимания, тогда посылайте.

С уважением, Максим

Date: 2011-06-06 04:47 pm (UTC)
From: [identity profile] smartnik.livejournal.com
Начнём с того, что "два словаря" -- это очень странно, всё-таки я бы рекомендовал иметь один словарь, как во всех существующих системах.

Отбросить вероятности не входящих в сообщение слов -- можно. На классификацию -- повлияет. :) Вообще, сложить 40000 чисел -- это не должно быть очень затратно даже в онлайн-приложениях нынче, а тут. Ну разве что Вы Google; но тогда Вы лучше меня справитесь с этой задачей. :)

Проблема с одноразовыми словами действительно есть, её обычно решают эвристически: отрезают по какой-нибудь нижней границе встречаемости.

Date: 2011-06-06 04:49 pm (UTC)
From: [identity profile] smartnik.livejournal.com
P.S. Но вообще обычно ещё как-нибудь стараются уменьшить размерность словаря. Выбрать самые важные слова (по приросту информации о категориях), главные компоненты выделить, ещё как-нибудь...

Date: 2011-06-06 05:30 pm (UTC)
From: [identity profile] maxim boyko (from livejournal.com)
Спасибо за Ваш ответ!
То что два словаря - я имею ввиду, то что у меня извлекаются слова из позитивных и негативных сообщений и список слов (т.е. словарь) один, но вероятности вхождения слова в положительный и негативный комментарий разные. Скорее не два словаря, а два класса.

Тогда попробую посчитать вместе с вероятностями невходящих в сообщение слов. Сравню результаты. Думаю, вот применю метод, а наивный байес ли это? В дипломе придется написать, а как на самом деле(((

По поводу редких слов. Потом хочу применить онтологию, хотя бы как то примитивно что бы работало, поэтому думаю проблема должна разрешиться. А пока просто делю единицу на логарифм вероятности.





Date: 2011-06-07 03:00 pm (UTC)
From: [identity profile] maxim boyko (from livejournal.com)
Сергей, а сумма вероятностей что комметнарий относится к i-му классу должна быть равна единице. У меня нигде не равна(((. По идее ведь сумма вероятностей должна составить единицу?

Date: 2011-06-08 11:47 am (UTC)
From: [identity profile] smartnik.livejournal.com
Да, должна. :) Я бы рекомендовал сделать так: сначала реализовать в точности какой-нибудь известный алгоритм (naive Bayes, хоть multinomial, хоть multivariate), получить результаты, потом уже улучшать его и вносить свои идеи, стараясь не испортить. Кроме того, что просто будет меньше вероятность багов, ещё и baseline появится для сравнения ваших результатов с известными.

Profile

snikolenko: (Default)
snikolenko

December 2011

S M T W T F S
    123
4567 8910
11121314151617
181920 21222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 26th, 2017 09:40 pm
Powered by Dreamwidth Studios