CodeToolProCodeToolProFree Online Developer Tools
GitHub

Extract URLs / Emails / IPs

Input Text

  • 技术详情

    数据提取器的工作原理

    工具功能

    数据提取器可以从混杂的文本中按类型提取特定格式的数据。支持的数据类型包括:电子邮件地址([email protected])、URL/域名、IP 地址(IPv4/IPv6)、电话号码、日期时间、十六进制颜色代码、信用卡号格式、MAC 地址、ISBN 编号、UUID 和哈希值(MD5/SHA)。工具使用各类型对应的正则表达式模式匹配引擎扫描输入文本,将匹配到的数据分类列出。你可以选择提取所有类型或仅提取特定类型,结果可复制或导出。


    常见开发者使用场景

    数据提取器在数据清洗和信息收集场景中效率极高。SOC 安全分析师从原始日志和威胁情报报告中提取 IOCs(失陷指标)——包括 IP 地址、域名、URL 和文件哈希值。数据工程师从非结构化的爬虫结果中提取邮件地址和联系方式。开源情报(OSINT)分析师从网页源代码、粘贴板或社交媒体数据中批量提取邮箱和域名用于进一步调查。开发者从调试日志中快速收集所有出现的错误码或 ID 列表。

    配合 正则测试器 自定义更复杂的数据提取模式,或使用 URL 安全化处理 对提取的可疑 URL 进行安全化后再保存。


    数据提取的正则模式

    每种数据类型背后是精心设计的正则表达式:

    • 邮箱提取:匹配 [email protected] 格式。使用 RFC 5322 兼容的正则,同时考虑加号别名(user+tag@domain)和新顶级域名。
    • IP 地址提取:IPv4 用 \\b(?:[0-9]{1,3}\\.){3}[0-9]{1,3}\\b 并验证每段在 0-255 范围内。同时避免匹配版本号(如 1.2.3 但非 1.2.3.4)。
    • 哈希值提取:MD5 是 32 字符 [a-f0-9]{32}、SHA-1 是 40 字符、SHA-256 是 64 字符。提取时需结合上下文避免误报(如 Git commit hash 也是 40 字符但实际不是 SHA)。
    • URL 提取:https?://[\\w.-]+(:\\d+)?(/[\\w./?=&%#@!$*+~-]*)? 匹配标准 URL,需处理结尾标点符号误匹配

    常见陷阱与注意事项

    • 误报(False Positives):正则模式匹配到的数据可能不是真实的——例如一堆十六进制字符可能匹配到 MD5 模式但不是真实的哈希。工具会标注匹配置信度。
    • 重叠匹配:email 地址 [email protected](iCloud 等会出现),邮箱和 IP 地址可能重叠匹配。需要设定优先级规则。
    • Unicode 域名(IDN):国际化域名(如 中国.com)的 Punycode 表示(xn--fiq****)可能不会被标准 URL 正则匹配到。
    • 去重:文本中多次出现的同一数据点应去重聚合显示,否则结果列表冗余且难以阅读。

    何时使用此工具而非代码

    在从日志中快速提取 IOC、清洗爬虫结果中的联系方式、或批量处理非结构化文本时使用此工具。对于需要编程化、大规模数据处理或自定义提取逻辑的场景,推荐使用 ioc-finder(Python 威胁情报 IOC 提取)、commonregex(Python)或编写针对性的 grep/sed 脚本。