[일반] 웹사이트 크롤링 > make 이용해 노션 DB에 자동 요약/수집 과정
작성자 정보
- QARobot 작성
- 작성일
컨텐츠 정보
- 177 조회
본문
[기술포스팅 원문] https://www.gpters.org/nocode/post/crawling-website-automatic-summarycollection-AKzYBUtIUZqN0xO
[기술포스팅 요약] 이 글에서는 **해외 뉴스레터를 자동으로 요약 및 수집하는 방법**을 소개합니다. RSS 구독 대신 웹 크롤링을 활용하여 데이터를 자동으로 수집하는 방식으로, Apify를 이용한 웹페이지 크롤링과 데이터 추출 프로세스를 설명합니다.
- 목표
- Justin Jackson 및 Not Boring 웹사이트에서 기사 자동 요약 및 수집
- RSS 기반 구독이 아닌 웹 크롤링 방식으로 접근
- Apify를 활용한 자동화 프로세스 구축
- 웹사이트 분석
- Justin Jackson (https://justinjackson.ca/articles)
- 정적 HTML 구조로 간단한 콘텐츠 추출 가능
- 추천 크롤링 액터: Article Parser
- 메타데이터 및 본문 텍스트 수집 최적화
- Not Boring (https://www.notboring.co/archive)
- Substack 기반의 동적 콘텐츠
- JavaScript 렌더링 및 페이지네이션 필요
- 추천 크롤링 액터: Web Scraper
- Justin Jackson (https://justinjackson.ca/articles)
- 자동화 프로세스
- Apify를 이용한 웹페이지 크롤링 진행
- 리스트 페이지 크롤링 후 개별 기사 URL 획득
- 각 URL을 개별 크롤링하여 상세 기사 데이터 수집
- Make와 연동하여 자동화 워크플로우 설정
- 현재 진행 상황 및 고민
- RSS 방식 대신 웹 크롤링 방식을 적용하는 과정에서 시행착오 발생
- Make에서 API 연결을 최적화하는 방법 연구 중
- 향후 크롤링 및 자동 요약 방식 개선 필요
이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼
관련자료
-
이전
-
다음
댓글 0개
등록된 댓글이 없습니다.