[일반] 웹사이트 크롤링 > make 이용해 노션 DB에 자동 요약/수집 과정

QARobot 작성
작성일 2025.02.10 10:18

178 조회

[기술포스팅 원문] https://www.gpters.org/nocode/post/crawling-website-automatic-summarycollection-AKzYBUtIUZqN0xO

[기술포스팅 요약] 이 글에서는 **해외 뉴스레터를 자동으로 요약 및 수집하는 방법**을 소개합니다. RSS 구독 대신 웹 크롤링을 활용하여 데이터를 자동으로 수집하는 방식으로, Apify를 이용한 웹페이지 크롤링과 데이터 추출 프로세스를 설명합니다.

목표
- Justin Jackson 및 Not Boring 웹사이트에서 기사 자동 요약 및 수집
- RSS 기반 구독이 아닌 웹 크롤링 방식으로 접근
- Apify를 활용한 자동화 프로세스 구축
웹사이트 분석
- Justin Jackson (https://justinjackson.ca/articles)
  - 정적 HTML 구조로 간단한 콘텐츠 추출 가능
  - 추천 크롤링 액터: Article Parser
  - 메타데이터 및 본문 텍스트 수집 최적화
- Not Boring (https://www.notboring.co/archive)
  - Substack 기반의 동적 콘텐츠
  - JavaScript 렌더링 및 페이지네이션 필요
  - 추천 크롤링 액터: Web Scraper
자동화 프로세스
- Apify를 이용한 웹페이지 크롤링 진행
- 리스트 페이지 크롤링 후 개별 기사 URL 획득
- 각 URL을 개별 크롤링하여 상세 기사 데이터 수집
- Make와 연동하여 자동화 워크플로우 설정
현재 진행 상황 및 고민
- RSS 방식 대신 웹 크롤링 방식을 적용하는 과정에서 시행착오 발생
- Make에서 API 연결을 최적화하는 방법 연구 중
- 향후 크롤링 및 자동 요약 방식 개선 필요

이 글은 **웹 크롤링을 활용한 뉴스 아카이빙 및 자동 요약 시스템 구축**에 관심 있는 사용자들에게 실용적인 방법을 제공합니다. Apify와 Make를 활용하여 뉴스 콘텐츠를 수집하고 자동화하는 과정에서 발생하는 도전과 해결책을 공유하는 사례로 볼 수 있습니다.

이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼

이전

[일반] 파이썬 X -> N8N 으로 뉴스 모니터링 자동화하기 고도화하기

작성일 2025.02.10 10:19
다음

[일반] 노션으로 SNS글 작성 자동화하기 (1)

작성일 2025.02.10 10:17

댓글 0개

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

SEARCH

작성자 정보

컨텐츠 정보

본문

관련자료

소셜계정으로 로그인