00:00 / 02:21
连播
清屏
智能
倍速
点赞2
00:00 / 02:30
连播
清屏
智能
倍速
点赞4
00:00 / 01:00
连播
清屏
智能
倍速
点赞2030
山行AI2月前
MediaCrawler - 开源的自媒体平台爬虫工具 #开源 #AI分享 #自媒体工具 #爬虫 大家好,今天给大家分享一个非常实用的开源项目——MediaCrawler。这是一个多平台自媒体爬虫工具,可以抓取小红书、抖音、快手、B站、微博、贴吧、知乎等平台的公开信息。功能特别全面,支持关键词搜索、帖子ID采集、评论抓取、主页采集,还能缓存登录态、支持代理池,甚至生成评论词云图,非常适合做数据研究。 在技术上,很多人可能以为要搞复杂的JS逆向,其实完全不用。它基于Playwright框架,通过保存登录态直接获取参数,简单高效,大幅降低了技术门槛。所以即使你不是安全专家,也能快速上手。 除了开源版,它还有一个Pro版本,功能更强大,比如断点续爬、多账号支持、代理池集成,还去掉了Playwright依赖,更轻量更易用。代码经过重构,解耦清晰,学习价值很高。Pro版还提供视频下载器和首页信息流,甚至正在开发AI Agent,对想深入研究架构设计的朋友来说,特别值得关注。 在使用上,推荐配合uv来管理Python环境,安装快还稳定。同时也支持Node.js。采集到的数据可以存到SQLite、MySQL、CSV或者JSON里,个人用SQLite就很方便。 需要注意的是,这个项目的定位是学习和研究,不能用于任何违法行为。开发者也强调过要遵守相关法律法规。大家学习的时候一定要合规使用。 总之,MediaCrawler不仅能帮你采集数据,还能让你学到很多架构和代码设计的思路。如果你对数据爬取或者自动化感兴趣,不妨去GitHub看看,顺手点个Star支持一下,开源项目真的不容易。
00:00 / 01:45
连播
清屏
智能
倍速
点赞3
00:00 / 03:14
连播
清屏
智能
倍速
点赞57