ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
455 stars 130 forks source link

URL 정규식 수정, README에 정오표 추가 #40

Closed black7375 closed 5 years ago

black7375 commented 5 years ago

정규식

저만 그런지 모르겠는데..

토크나이징만 따와서 돌려보거나 https://regex101.com/

((ftp|http|https):\/\/)?(www.)?(?!.*(ftp|http|https|www.))[a-zA-Z0-9_-]+(\.[a-zA-Z]+)+((\/)[\w#]+)*(\/\w+\?[a-zA-Z0-9_]+=\w+(&[a-zA-Z0-9_]+=\w+)*)?$

로 테스트 해보니 잘 안되더라고요.

http://urlregex.com/ 의 정규식에 원래 의도했던대로 ftp를 추가한 정규식입니다.

(ftp|http|https)?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+

정오표

정오표는 독자들이 바로 접근할 수 있는게 좋다고 생각해서 책 이미지 바로 밑에 링크를 추가했습니다.

ratsgo commented 5 years ago

부족한 코드인데 이렇게 친절하게 수정해 주시니 정말 감사합니다!

black7375 commented 5 years ago

책 내주셔서 감사합니다. 정말 잘보고 있어요!!

ohwi commented 4 years ago

안녕하세요. 이제 막 자연어 처리에 입문하고 많은 데이터를 살펴보지 못해서 궁금해서 여쭤봅니다.

수정된 정규식으로는 github.com/ratsgo/embedding/pull/40 혹은 www.google.com 같은 주소를 잡을 수 없는데요, 대부분 자연어 처리 데이터들이 주소를 표현할 때 ftp://, http:// 혹은 https://가 앞에 붙어있나요?

black7375 commented 4 years ago

@ohwi 제가 알기로 이건 위키백과 토크나이징을 위한 정규식인데요, 위키백과 링크 거의 대부분은 앞에 프로토콜이 붙어있을겁니다.

ohwi commented 4 years ago

@black7375 감사합니다!!