OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora
http://opencorpora.org
GNU General Public License v2.0
241 stars 23 forks source link

Список ЖЖ постов для "координации заливки" #456

Closed grandsbor closed 9 years ago

grandsbor commented 9 years ago

Original issue 285 created by OpenCorpora on 2011-09-25T14:06:11.000Z:

Скачать список всех ЖЖ постов тех пользователей, которые разрешили использование своих текстов.

grandsbor commented 9 years ago

Comment #1 originally posted by OpenCorpora on 2011-09-25T16:52:16.000Z:

$ wc -l lj-posts-2011-09-24.lst 28124 lj-posts-2011-09-24.lst

grandsbor commented 9 years ago

Comment #2 originally posted by OpenCorpora on 2011-09-25T16:59:34.000Z:

grep -E "^POST" lj-posts-2011-09-24.txt | gawk '{print $4}' | grep -E -o "^[^.]+" | uniq -c | sort -r -n 8765 krylov 3974 pvphome 3950 pe3yc 2877 arilou 1285 kkirsanov 1167 tarbozaurus 723 fantaseour 695 yakov-sirotkin 669 fregimus 613 l-i-d-y-a 518 mashenic 471 kika 443 fat-crocodile 378 ajvol2 325 butko 303 dours 155 sinhas-chandr 145 qkowlew 140 okhrim 128 dmitry-vk 120 yantayga 104 happy-mystx 52 naglaya-ryjaya 46 vgiv 42 dzatochnik 32 wolfkeil 4 1337am

Если добавить все посты, то будет большой перекос в сторону многопишущих. Можно выбрать по N текстов каждого автора, что-то потом вручную придётся выбросить (из-за того, что это перепост, копия чего-то защищённого правами или там нет текста).

grandsbor commented 9 years ago

Comment #3 originally posted by OpenCorpora on 2011-09-25T17:10:32.000Z:

$ grep -E "^POST" lj-posts-2011-09-24.txt | gawk '{print $4}' | grep -E -o "^[^.]+" | uniq | xargs -I XX bash -c 'grep "XX" lj-posts-2011-09-24.txt | grep -E "^POST" | sort -R | head -n 100' > lj-posts-random-100.txt

$ wc -l lj-posts-random-100.txt 2376 lj-posts-random-100.txt

Если будет мало, добавим позже ...

grandsbor commented 9 years ago

Comment #4 originally posted by OpenCorpora on 2011-09-26T11:23:52.000Z:

Добавил, но из-за их структуры провязывать надо не через "добавить", а руками (создать текст + "уже есть"). Это ничего?

grandsbor commented 9 years ago

Comment #5 originally posted by OpenCorpora on 2011-09-26T11:36:12.000Z:

Думаю, что руками - это не очень хорошо. А почему не получается провязать по-старому?

Ещё, может быть, можно создать нужные разделы под все посты сразу и заранее провязать. Тогда останется нажать "я хочу".

grandsbor commented 9 years ago

Comment #6 originally posted by OpenCorpora on 2011-09-26T11:48:45.000Z:

Ещё, может быть, можно создать нужные разделы под все посты сразу и заранее провязать. Тогда останется нажать "я хочу".

Да, так можно. Не трогай тогда их пока :)

grandsbor commented 9 years ago

Comment #7 originally posted by OpenCorpora on 2011-09-26T11:51:39.000Z:

не трогаю. Отсорожно: корневые разделы созданы где-то для трети журналов, т.к. я создавал их руками со всеми подробностями (выбирал имя, если оно было написано не в том поле, год рождения и т.д.). Остальные, наверное, есть смысл создать без атрибутов - я постепенно их доввожу.

grandsbor commented 9 years ago

Comment #8 originally posted by OpenCorpora on 2011-09-26T12:39:30.000Z:

Создал все, вроде можно провязывать как обычно.

grandsbor commented 9 years ago

Comment #9 originally posted by OpenCorpora on 2011-09-26T12:49:03.000Z:

Ага ... вроде всё работает. Спасибо!

grandsbor commented 9 years ago

Comment #10 originally posted by OpenCorpora on 2011-09-26T12:50:28.000Z:

<empty>