dvbakh / nlp_hw

0 stars 0 forks source link

Оценка #1

Open Lerostre opened 1 year ago

Lerostre commented 1 year ago

Гитхаб пишет, что коммит был 24, это третий день просрочки, то есть штраф 50%, разве что у меня совсем устали глаза. Если я не прав, у тебя есть подтверждённый больничный, какие-то форсмажорные обстоятельства - напиши

Комментариев мало, не очень удобно читать, когда у ноутбука нет структуры. CountVectorizer нельзя использовать, предполагалось, что вы сами напишете код, это можно засчитать, как улучшение, но не более, тем более, ты его не предлагал и не аргументировал, чем именно этот подход лучше, чем подход из дз. Модели соответственно тоже, тем более у меня ещё больше вопросов, зачем тебе наив баес, может быть, мы доживём до этого ближе к концу года

Улучшений нет (-1.5), то что есть - годится. Нет алгоритма и подсчёта аккураси (-2)

6.5 * 0.5 = 3.25

dvbakh commented 1 year ago

Технически, коммит был действительно 24, но я отправил совсем чуть позднее 00( Было написано, что разумное превышение дедлайна допускается, и я верил, что это относится и к дедлайнам просрочки, а не только к основному, но если это не так, то хорошо.

Если Вы можете сказать, как лучше располагать блоки и комментарии, я был бы благодарен, потому что не очень представляю, как это правильно делать, и что именно комментить.

Все остальное понял принял

Lerostre commented 1 year ago

По предыдущему

Ну я бы не сказал, что это чуть позднее, там на час с лишним опоздание. Эта домашка в принципе часа за 3 делается, не могу согласиться. Можешь попробовать преподов попросить, они мягкие в этом отношении, я лично не согласен

Располагать блоки в дз лучше наверное по критериям

1. Первая часть, например первое задание

Большой кусок, например, предобработка текста, обучение модели етц

маленький кусок, например маленький коммент и так далее. Комментарии либо в самой тетрадке, если оно не относится к коду, а например, ты описываешь, почему делаешь так, почему не делаешь не так. В коде через # там где что-нибудь громоздкое, неочевидное, например, огромный фор можно кратко проаннотировать # цикл по ..., считает ...

По оформлению

Множественные ифы лучше кодировать так

def do_smth(x, y, operation):
    d = {"sum": sum, "mul": mul}
    return d[operation](x, y)

sum = lambda x, y: x + y
mul = lambda x, y: x * y

do_smth(1, 2, "mul")
# 2

Заменяет соответственно if operation == "sum", но там может быть что-угодно на что хватит фантазии.

Про задания

А как я проверю то без твоего корпуса? Я могу, конечно, повоображать, некоторые моменты меня очень смущают. Аккураси довольно низкая, наши теггеры конечно плохие, но не настолько. Из того, что я вижу, очень маленький список словарь замены тегов, должен быть больше, если ты что-то не учтёшь, конечно, это повлияет на аккураси не в лучшую строку. Без корпуса проверить не могу, предварительно (-1), судя по другим дз, есть неучтённые теги

Обоснования для выбора чанков очень странные. Ну, наречия действительно показывают отношение говорящего, а с глаголами это как связано? При чём здесь сериал - как его наличие говорит о тональности? Мне непонятно, в общем, нужно более подробное объяснение (-.5). Чанкер не совсем правильный, просили добавлять собственно слова, а не леммы (-.5), тут же как раз прикол в том, что вне зависимости от того, стоит слово в начальной форме или нет, мы по одному только тегу добавляем

Последней части нет, но мог бы и доделать дз1, почему нет, там делать то всего ничего (-2)

Итого 6 * 0.2 = 4,8