phamlequang / vietnamese-synthesis-system

Automatically exported from code.google.com/p/vietnamese-synthesis-system
0 stars 0 forks source link

Chuẩn bị từ điển tên riêng dùng cho tách từ #3

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Để việc tách từ được hiệu quả, ngoài từ điển tiếng 
Việt, còn cần thêm từ điển tên riêng, bao gồm: tên người, 
tên địa danh, tên đường, v.v...

Hoàn thành trước thứ 6, ngày 24/5/2013

Original issue reported on code.google.com by quangpl0...@fpt.edu.vn on 22 May 2013 at 2:32

GoogleCodeExporter commented 9 years ago

Original comment by tuannm01...@fpt.edu.vn on 23 May 2013 at 7:24

GoogleCodeExporter commented 9 years ago
http://maxreading.com/sach-hay/danh-nhan-nuoc-viet
http://www.baomoi.com/HN-Danh-sach-cac-tuyen-duong-pho-cam-giu-xe/121/7886660.ep
i
http://vi.wikipedia.org/wiki/Vua_Việt_Nam

Original comment by quangpl0...@fpt.edu.vn on 23 May 2013 at 7:26

GoogleCodeExporter commented 9 years ago
package textparser;

import java.io.File;
import java.io.PrintWriter;
import java.util.Scanner;

/**
 *
 * @author quangpham
 */
public class TextParser {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws Exception {
        Scanner scanner = new Scanner(new File("/Users/quangpham/Desktop/input.txt"));
        PrintWriter writer = new PrintWriter(new File("/Users/quangpham/Desktop/street.txt"));
        while (scanner.hasNextLine()) {
            String s = scanner.nextLine().trim().toLowerCase();
            if (s.length() > 0) {
                if (s.compareTo("x") == 0) continue;
                char c = s.charAt(0);
                if ('0' <= c && c <= '9') continue;
                System.out.println(s);
                writer.println(s);
            }
        }
        scanner.close();
        writer.close();
    }
}

Original comment by quangpl0...@fpt.edu.vn on 23 May 2013 at 8:59

Attachments:

GoogleCodeExporter commented 9 years ago
Danh sách tỉnh thành ở Việt Nam
http://yume.vn/dia_2b/article/danh-sach-64-tinh-thanh-o-viet-nam-va-dia-chi-tran
g-wed-nguyen-ngoc-phuong.35CF79AC.html

Original comment by quangpl0...@fpt.edu.vn on 23 May 2013 at 9:21

GoogleCodeExporter commented 9 years ago
/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
package textparser;

import java.io.File;
import java.io.PrintWriter;
import java.util.Scanner;

/**
 *
 * @author quangpham
 */
public class TextParser {

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws Exception {
        Scanner scanner = new Scanner(new File("/Users/quangpham/Desktop/input.txt"));
        PrintWriter writer = new PrintWriter(new File("/Users/quangpham/Desktop/danhnhan.txt"));
        while (scanner.hasNextLine()) {
            String s = scanner.nextLine().trim().toLowerCase();
            s = s.substring(s.indexOf("\t") + 2);
            s = s.substring(0, s.indexOf("\t"));
            s = s.trim();
            System.out.println(s);
            writer.println(s);
        }
        scanner.close();
        writer.close();
    }
}

Original comment by quangpl0...@fpt.edu.vn on 23 May 2013 at 10:17

Attachments:

GoogleCodeExporter commented 9 years ago
đây là bản data a đã remove duplicate, sort, mọi người review nhé

Original comment by tuannm01...@fpt.edu.vn on 24 May 2013 at 2:57

Attachments:

GoogleCodeExporter commented 9 years ago
Sao tên này còn thiếu nhiều nhỉ :)) thử viết 1 trình crawl 
database xem ví dụ các tên đơn giản như Nguyễn Văn Toàn vẫn 
chưa có

Original comment by hieult01...@fpt.edu.vn on 24 May 2013 at 4:12

GoogleCodeExporter commented 9 years ago
Anh Tuấn mới lấy 1 phần nhỏ của danh sách SV trường mình thôi 
phải ko? Em còn ko thấy tên em trong đấy =)) Anh phải lấy thêm 
đi, thêm cả mấy trường khác nữa. Chưa final được đâu :D

Original comment by quangpl0...@fpt.edu.vn on 24 May 2013 at 4:56

GoogleCodeExporter commented 9 years ago
Chưa chuyển thành verified được đâu, task này còn phải bổ sung 
nhiều thứ. 

Original comment by quangpl0...@fpt.edu.vn on 24 May 2013 at 4:58

GoogleCodeExporter commented 9 years ago
Viết mẹ 1 cái crawler cho mấy danh sách thi vào trường mình cũng 
được

Original comment by hieult01...@fpt.edu.vn on 24 May 2013 at 6:31

GoogleCodeExporter commented 9 years ago
anh đã làm đến 6k line rồi, nhưng tự nghĩ ra 1 tên rồi search 
thì vẫn dễ dàng tìm được tên không có =.=.....đầy đủ không 
làm được đâu, các chú nên lấy tiêu chí bao nhiêu line ra đi

Original comment by tuannm01...@fpt.edu.vn on 24 May 2013 at 9:50

GoogleCodeExporter commented 9 years ago
cứ cho tầm 10K đi anh. đầy đủ thì ko làm được rồi, tạm 
thời cứ thế đã. sau này mình có thể làm theo hướng check mấy 
cái họ mà thường có ở VN (Nguyễn, Trần,...) + thêm mấy cái 
đệm thường có (Văn, Thị, ...)

Original comment by quangpl0...@fpt.edu.vn on 24 May 2013 at 12:35

GoogleCodeExporter commented 9 years ago
Task này anh Tuấn làm xong chưa ạ? Nếu xong rồi anh up bản từ 
điển cuối cùng lên đi ạ.

Original comment by quangpl0...@fpt.edu.vn on 28 May 2013 at 1:33

GoogleCodeExporter commented 9 years ago
Anh Tuấn 2 hôm nay ko thấy động tĩnh gì nhỉ? Anh nào có số 
của anh Tuấn gọi điện nhắc anh ấy giùm em cái.

Original comment by quangpl0...@fpt.edu.vn on 29 May 2013 at 10:04

GoogleCodeExporter commented 9 years ago

Original comment by tuannm01...@fpt.edu.vn on 30 May 2013 at 8:07

Attachments:

GoogleCodeExporter commented 9 years ago

Original comment by tuannm01...@fpt.edu.vn on 30 May 2013 at 8:07

Attachments:

GoogleCodeExporter commented 9 years ago

Original comment by quangpl0...@fpt.edu.vn on 5 Jun 2013 at 11:59