谁说爬虫只能Python?看我用C#快速简单实现爬虫开辟和演示!
媒介:说到爬虫,基本上清一色的都知道用Python,但是对于一些没玩过或者不想玩Python的来说,却比较头大一点。以是以下我站在C# 的角度,来写一个简单的Demo,用来演示C# 实现的简单小爬虫。大家感爱好可以自己拓展出更加丰富的爬虫功能。前提:引用包HtmlAgilityPack
先来个爬取文本。
新建一个文本处理的方法,用于处理爬取的文本数据,并写入到指定文件夹内的text.txt文件内
https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018810-541953241.png static async Task ProcessText(HtmlDocument doc, string textDir)
{
var textNodes = doc.DocumentNode.SelectNodes("//*");
if (textNodes != null)
{
StringBuilder allText = new StringBuilder();
foreach (HtmlNode node in textNodes.Where(node => !string.IsNullOrWhiteSpace(node.InnerText)))
{
string textContent = WebUtility.HtmlDecode(node.InnerText.Trim());
if (!string.IsNullOrWhiteSpace(textContent))
{
allText.AppendLine(textContent);
}
}
string filePath = Path.Combine(textDir, "text.txt");
await File.WriteAllTextAsync(filePath, allText.ToString());
}
}
新增一个网页处理方法,用于传入网址进行抓取网页数据,并传给以上的文本处理方法进行剖析文本数据,保存到当前根目次下的Texts文件夹内https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018943-2095131497.png以我两天前写的博客内容为例,进行抓取。博客地点为:https://www.cnblogs.com/weskynet/p/18213135https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018987-92873157.pngMain里面调用有关方法,进行爬取。https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018967-1937234401.png说明:添加 User-Agent 头部信息可以资助模仿常规的浏览器请求,避免被目标服务器拒绝。看下我当前的根目次:https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018785-1954682488.png运行完毕,多出Texts文件夹https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018916-72841545.png文件夹内多出程序里面写定的text.txt文件https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018774-319215684.png打开文本文件,可以看到文章全部内容,以及所有文本都被抓取下来了。https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018967-537653899.png 同文本处理,新增一个图片处理方法:https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018966-1760631395.png static async Task ProcessImages(HtmlDocument doc, string baseUrl, string imagesDir)
{
var imageNodes = doc.DocumentNode.SelectNodes("//img[@src]");
if (imageNodes != null)
{
foreach (HtmlNode imageNode in imageNodes)
{
string imageUrl = imageNode.GetAttributeValue("src", null);
imageUrl = EnsureAbsoluteUrl(baseUrl, imageUrl);
string fileName = Path.GetFileName(new Uri(imageUrl).LocalPath);
string localPath = Path.Combine(imagesDir, fileName);
byte[] imageBytes = await client.GetByteArrayAsync(imageUrl);
await File.WriteAllBytesAsync(localPath, imageBytes);
}
}
}
网页爬取方法里面把文本有关改成图片https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018798-1435056310.png以下是一个辅助方法,辅助方法用于处理相对URL,确保所有请求的URL是绝对的,防止资源加载失败。static string EnsureAbsoluteUrl(string baseUrl, string url) { return Uri.IsWellFormedUriString(url, UriKind.Absolute) ? url : new Uri(new Uri(baseUrl), url).AbsoluteUri; }执行程序,执行完毕,根目次下新增Images文件夹https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018944-474885993.png文件夹内会看到该网址的所有图片文件。https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018968-430002343.png图片文件格式都会被抓取,可以根据自己必要进行过滤。如果是整个站点,可以根据循环进行获取每个页面的数据。末了再提供一个视频爬取的代码,由于没找到可以爬取的站点,此处演示就不演示了,仅供代码出来给大家学习和技术分享利用。感爱好的大佬可以自行尝试。https://img2024.cnblogs.com/blog/1995789/202405/1995789-20240527224018811-249258319.png static async Task ProcessVideos(HtmlDocument doc, string baseUrl, string videosDir)
{
var videoNodes = doc.DocumentNode.SelectNodes("//video/source[@src]");
if (videoNodes != null)
{
foreach (HtmlNode videoNode in videoNodes)
{
string videoUrl = videoNode.GetAttributeValue("src", null);
videoUrl = EnsureAbsoluteUrl(baseUrl, videoUrl);
string videoName = Path.GetFileName(new Uri(videoUrl).LocalPath);
string videoPath = Path.Combine(videosDir, videoName);
byte[] videoBytes = await client.GetByteArrayAsync(videoUrl);
await File.WriteAllBytesAsync(videoPath, videoBytes);
}
}
}如果大佬们想要直接获取我当地测试的源码demo,可以在我的公众号【Dotnet Dancer】后台回复:【爬虫】 即可获取我的当地demo源码自行调试和把玩。
最近园子时不时会图片全挂掉,如果图片没掉了,可以移步另一个地方围观:
https://mp.weixin.qq.com/s/NB2UWsfUdgNU82UVRbWe3Q
如果以上内容对你有资助,欢迎关注我的公众号【Dotnet Dancer】,或点赞、推荐和分享。我会时不时更新一些其他C#或者其他技术文章。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]