google arts 크롤러 사용하기
- Nest
- ETC
- Category
- Program
- Hit
- 747
- Star
- 0
크롤러 프로그램은 다음 github 저장소에서 받을 수 있고, 파이썬으로 작성되어 있다.
https://github.com/redgoose-dev/google-arts-crawler
MacOS 에서 사용하기
일단 클론 받는다.
git clone https://github.com/Boquete/google-arts-crawler.git
cd google-arts-crawler/
다음 링크를 참고하여 virtualenv
를 설치한다.
https://dgkim5360.tistory.com/entry/python-virtualenv-on-linux-ubuntu-and-windows
virtualenv
를 설치했으면 다음 커멘드를 실행하여 가상환경 설정한다.
virtualenv venv
source venv/bin/activate
다음 커멘드 실행한다.
pip3 install -r requirements.txt
다음 커멘드로 사용한다.
python3 crawler.py
Chromedriver 관련 오류가 있을때..
https://sites.google.com/a/chromium.org/chromedriver/downloads 사이트에 가서 크롬 드라이버를 다운로드하고 글로벌로 사용할 수 있는 패스에다 복사해 넣는다. 꼭 어디서든지 사용할 수 있어야 한다.
글로벌 경로가 어디로 잡혀있는지 확인하려면 cat /etc/paths
을 실행하면 목록이 표시된다. 아니면 echo $PATH
편집은 다음 링크를 참고
https://www.architectryan.com/2012/10/02/add-to-the-path-on-mac-os-x-mountain-lion/
사용법
url을 복사해놓고 python crawler.py
실행하면 다운로드 받는다.
다운로드된 이미지는 ./output
으로 저장된다.
오류 대처법
Too many open files
한번에 파일을 열수있는 수가 제한되어있는데 제한수를 풀어줘야한다. 다음글을 참고할 수 있다.
https://medium.com/mindful-technology/too-many-open-files-limit-ulimit-on-mac-os-x-add0f1bfddde
이미지 조각을 받다가 실패할때..
이미지 다운로드 실패할때 cannot identify image file 'blobs/33.jpg'
이런 오류가 뜨는데 조각을 받는 횟수가 많을수록 오류날 가능성이 높아지니 사이즈값을 줄일 수 밖에 없다.